KNN是指通过测量不同特征值之间的距离进行分类。
1、它的本质是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
例如:下图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?
如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。
因此,KNN算法的结果很大程度取决于K的选择。
2、在KNN中,将样本间距离作为各个样本之间的非相似性指标,较长使用的距离是欧氏距离或曼哈顿距离,公式这个理不赘述。
3、现在总结一下KNN算法的思想:
在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的样本与训练集中对应的样本进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
4、MATLAB代码实现:----这里为了使用方便,直接写成函数的形式。
function relustLabel = KNN(inx,data,k)
%% 寻找k个邻居
% inx为输入测试数据,data为样本数据,k:k个邻居
[datarow , ~] = size(data); % 获取数据的行数
diffMat = repmat(inx,[datarow,1]) - data ; %在列上重复inx共1次,在行上重复inx共datarow次
distanceMat = sqrt(sum(diffMat.^2,2)); %特征平方,按行累加,开根号计算距离
[B,IX] = sort(distanceMat,'ascend'); % 排序,IX为排序后备元素在原矩阵中的行位置或列位置的索引,B是排列后的数据
a = [];
a =IX(1:k);
relustLabel = IX(1:k);
end