k-近邻算法(knn)工作原理:
首先存在一个样本集(训练样本),样本集中每一个样本数据都有一个标签,并都有相应特征。
当有新的没有标签的数据输入后,将新数据的特征与样本数据对应的特征进行比较,然后选取样本数据中前k个与新数据最相近的数据,再选择这k个数据中出现次数最多的标签作为新数据的标签。
一般流程:
1 收集数据:略
2 准备数据:
3 分析数据
4 训练数据
5 测试数据
6 使用算法
一个简单的实例:
1 先创建一个简单的样本集
代码如下:
from numpy import*
import operator
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return group,labels
group为一个4组 有两个特征的数据,labels 为这4组数据的标签。
2 knn算法过程: