所属类别:
监督学习之聚类算法
原理:
KNN是通过测量不同特征值之间的距离进行分类。即,如果一个样本在特征空间中的k个最相似(最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。其中 k k k 通常是不大于20的整数。
例子:
在如上图形中,要求判断绿色的园应当被划分到哪个类别。
如果k=3,即根据与绿色园最近邻的三个形状来划分它的所属类别。由于与其最近邻的三个图形中红色三角形所占比例为2/3,蓝色正方形所占比例为1/3,故绿色园应当被划分到红色三角形的那一类中去。
如果k=5,即根据与绿色园最近邻的五个形状来划分它的所属类别。由于与其最近邻的五个图形中红色三角形所占比例为2/5,蓝色正方形所占比例为3/5,故绿色园应当被划分到蓝色正方形的那一类中去。
由此可见,KNN算法的结果很大成都取决于k的取值。
在KNN中,常用对象之间的距离作为各个对象之间的非相似性指标。其中的距离一般使用欧式距离或者曼哈顿距离:
算法步骤:
1.计算测试数据与其它各个训练数据之间的距离。
2.按照距离递增关系进行排序。
3.选取距离最小的k个点。
4.确定前k个点所在类别的出现频率。
5.返回前k个点中出现频率最高的类别作为测试数据的预测类别。
python实现:
import numpy as np
import operator
#创建数据集
def createDataSet():
# 四组二维特征
group=np.array([[1.0,2.0],[1.3,0.2],[0.2,1.3],[0.3,3.4]])
# 四组特征的标签
labels=['a','a','b','b']
return group,labels
# kNN算法,分类器
def classify(inX,dataSet,labels,k):
# numpy函数shape[0]返回dataSet的行数
dataSetSize = dataSet.shape