Kaggle-Data Science London-1

最新推荐文章于 2024-03-17 14:26:12 发布

X-Wyatt

最新推荐文章于 2024-03-17 14:26:12 发布

阅读量1.1k

点赞数

分类专栏： Machine Learning Python

本文链接：https://blog.csdn.net/X_White/article/details/28891715

版权

Machine Learning 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

Python

2 篇文章 0 订阅

订阅专栏

import pylab as pl
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.cross_validation import train_test_split,StratifiedKFold,cross_val_score
from sklearn.decomposition import PCA
from sklearn.feature_selection import RFECV
from sklearn.svm import SVC
import sklearn.preprocessing as pp

def dsplit(train_init,target_init):
    train,test,train_target,test_target = train_test_split(train_init,target_init,test_size=0.1,random_state=42)
    print len(train_init)
    print len(train)
    print len(train_target)
    return train,test,train_target,test_target

def dopca(train,train_target,test_init):
    pca = PCA(n_components=12,whiten=True)
    train = pca.fit_transform(train,train_target)
    test_init =pca.transform(test_init)
    return train,test_init

def classifier(train,train_target):

    
    kclass = KNeighborsClassifier(n_neighbors=13,algorithm='kd_tree',weights='uniform',p=1)
    kclass.fit(train,train_target)
#    res = kclass.predict(train)
   
#    print classification_report(train_target,res)
    
#    res1 = kclass.predict(test)
#    print classification_report(test_target,res1)
    return kclass

train_init = np.genfromtxt(open('train.csv', 'rb'), delimiter=',')
target_init = np.genfromtxt(open('trainLabels.csv', 'rb'), delimiter=',')
test_init = np.genfromtxt(open('test.csv','rb'), delimiter=',')

#train,test,train_target,test_target = dsplit(train_init,target_init)
#train,test,test_init = dopca(train,train_target,test,test_init)
train,test_init = dopca(train_init,target_init,test_init)

kclass = classifier(train,target_init)

res = kclass.predict(test_init)
idcol = np.arange(start=1,stop=9001)
res2 = np.column_stack((idcol,res))

np.savetxt('prediction.csv',res2,fmt='%d',delimiter=",")

Public score=0.92399

使用了KD-Tree的KNN算法，并做了PCA分解。

实验过后发现，采用PCA可以提高分类的正确性。未使用PCA的，ps=0.87221。

函数：

分解数据：

train_test_split(train_init,target_init,test_size=0.1,random_state=42)

PCA：

pca = PCA(n_components=12,whiten=True)
train = pca.fit_transform(train,train_target)
test_init =pca.transform(test_init)

KNN：

kclass = KNeighborsClassifier(n_neighbors=13,algorithm='kd_tree',weights='uniform',p=1)
kclass.fit(train,train_target)
res = kclass.predict(test_init)

X-Wyatt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kaggle-Data Science London-1

import pylab as plimport numpy as npfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.metrics import classification_reportfrom sklearn.cross_validation import train_test_split,Stratif
复制链接

扫一扫