K近邻分类器
kNN原理:
对于一个给定的训练集,我们知道训练样本中的每组数据特征及其分类标签。然后输入没有标签的新数据,将新数据的每个特征与训练集中的每个特征进行比较,选取特征最相似(最近邻:k=1)的分类标签,一般来说,我们只选取前 k 个最相似的分类标签,这也是 k-近邻算法中 k 的由来,通常 k 不超过 20。最后,选择 k 个数据中出现次数最多的分类标签作为新数据的分类结果。
from skearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import classification_report
运行代码如下
knn = KNeighborsClassifier(n_neighbors=7)
#n_neighbors为k值,创建k近邻分类器
knn.fit(X, y)
#构建分类器模型
y_pred = knn.predict(X_test)
#使用需要分类的数据集x_test,进行分类器预测,得到分类结果y_pred。
print(classification_report(y_test,y_pred))
#这里的y_test是需要分类的数据X_test实际标签与算法得到的标签相比,返回准确度等
Ps: 在实际应用中无法得到很多有效的数据以及参数,所以对已经完成的数据进行交叉验证得到训练集,训练标签,测试集,测试标签用训练集构建模型,测试集去验证该模型正确率,使用测试标签与模型得到的测试集数据的标签求出,准确度等