KNN (K近邻)算法思想:
利用在样本空间上,相似样本是集中在同一个区域的,并且相似样本具有相同的特征信息,也就是认为相似样本是具有相同的类别或者相同的预测值y;
利用这种特性,从训练数据中找出和当前待预测样本比较相似的K个样本,使用这K个样本产生预测值;
伪代码:
1.计算测试数据与各个训练数据之间的距离;
2.按照距离的递增关系进行排序;
3.选取距离最小的K个点;
4.确定前K个点所在类别的出现频率;
5.返回前K个点中出现频率最高的类别作为测试数据的预测分类;
KNN (K近邻)算法思想:
利用在样本空间上,相似样本是集中在同一个区域的,并且相似样本具有相同的特征信息,也就是认为相似样本是具有相同的类别或者相同的预测值y;
利用这种特性,从训练数据中找出和当前待预测样本比较相似的K个样本,使用这K个样本产生预测值;
伪代码:
1.计算测试数据与各个训练数据之间的距离;
2.按照距离的递增关系进行排序;
3.选取距离最小的K个点;
4.确定前K个点所在类别的出现频率;
5.返回前K个点中出现频率最高的类别作为测试数据的预测分类;