K最邻近分类算法
简介
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
算法思想
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。
KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。
KNN算法流程
在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:
1)计算测试数据与各个训练数据之间的距离;(一般为欧式距离或曼哈顿距离)
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类 ;
python代码实现
from numpy import *
import operator
def createDataSet():
group = array([[1.0, 2.0], [1.2, 0.1], [0.1, 1.4], [0.3, 3.5]])
labels = ['A', 'A', 'B', 'B']
return group, labels
def classify(input, dataSet, label, k):
dataSize = dataSet.shape[0] ###dataSize = dataSet的行数,4;
###计算欧式距离
diff = tile(input, (dataSize, 1))-dataSet
sqdiff = diff ** 2 ###diff是测试数据input和样本集dataSet的差值矩阵
### sqdiff 每个差值坐标距离进行平方
squareDist = sum(sqdiff, axis =1)
###axis= 1,行向量相加;每一个行向量分别相加得到一个值, ###即为与测试数据的欧式距离平方,得到的值排列得到一个行向量, axis=0, 列向量相加;
dist = squareDist **0.5 ###开方,dist即为dataSet中每个元素与测试数据input的欧式距离
sortedDistIndex = argsort(dist) ###根据元素值得大小按从大到小排序,返回下标
classCount ={} ###创建一个字典
for i in range(k): ###k为距离测试数据input最近的k个值
voteLabel = label[sortedDistIndex[i]] ###根据下标值对应的labels的值,赋值给 ###votelabel,共k个
###对选取的k个样本所属的类别个数进行统计
classCount[voteLabel] = classCount.get(voteLabel,0)+1
maxCount =0
for key,value in classCount.items():
if value >maxCount:
maxCount = value
classes = key
return classes