机器学习之十大经典算法(一)KNN算法

     分类思想比较简单,从训练样本中找出 K 个与其最相近的样本,然后看这 k 个样本中哪个类别的样本多,则待判定的值(或说抽样)就属于这个类别。
    缺点:
       1)K 值需要预先设定,而不能自适应,一般选择20,如果数据量小的话,可以调参。
      2)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的 K 个邻居中大容量类的样本占多数。这个缺点是KNN算法不可避免的。

     该算法适用于对样本容量比较大的类域进行自动分类。

  可以用一个图来描述:

  

  

算法步骤:

    step.1---初始化距离为最大值

    step.2---计算未知样本和每个训练样本的距离dist

    step.3---得到目前K个最临近样本中的最大距离maxdist

    step.4---如果dist小于maxdist,则将该训练样本作为K-最近  邻样本

    step.5---重复步骤234,直到未知样本和所有训练样本的  距离都算完

    step.6---统计K个最近邻样本中每个类别出现的次数

    step.7---选择出现频率最大的类别作为未知样本的类别

我们使用的是scikit-learn 库中的neighbors.KNeighborsClassifier 来实行KNN.

(一)、导入包:

from sklearn import neighbors

neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform',algorithm='auto', leaf_size=30,p=2, metric=’minkowski’, metric_params=None,n_jobs=1)

其中:

(1)Algorithm 是分类时采取的算法,有 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’},一般情况下选择auto就可以,它会自动进行选择最合适的算法。

(2)当p=1时,距离方法定义为曼哈顿距离,p=2时为欧几里得距离。一般默认值为2。

(二)、fit() 训练拟合,要分为训练集和测试集,可以自己手动分割或者调用train_test_split。

一般形式: train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:

 X_train,X_test, y_train,y_test = cross_validation.train_test_split(train_data,train_target,test_size=0.4,random_state=0) 参数解释: train_data:所要划分的样本特征集 train_target:所要划分的样本结果 test_size:样本占比,如果是整数的话就是样本的数量 random_state:是随机数的种子。 

 

knn=KNeighborsClassifier()

knn.fit( X_train, y_train)

(三)、预测:

knn.predict(X)

这里输入X一个数组,形式类似于(如果是一个二维特征的话):[ [0,1 ],[2,1]...]

(四)、评估:

neighbors.KNeighborsClassifier.score(X, y, sample_weight=None)

我们一般会把我们的训练数据集分成两类,一个用作学习并训练模型,一列用作测试,这个动能就是学习之后进行测试的功能来看一下准确度。

首先我们先拿我们在机器学习系列中的KNN算法中的电影分裂举例。我们在那个系列中自己实现了一个KNN分类器,采取的是欧几里得的距离,这里我们直接使用sklearn库中的函数来实现KNN算法,大家可以参考两者来看。

 

import numpy as np

import sklearn

from sklearn import datasets

from sklearn.neighbors importKNeighborsClassifier

X_train =np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])  

y_train=['0','1','1','1']

knn=KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train,y_train)

knn.predict([[5,0],[4,0]])#要注意哦,预测的时候也要上使用数组形式的



相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页