1、分类分析--K近邻(KNN)算法原理
核心思想:根据离自己最近的邻居判断自己属于哪一类,如上图当圆的半径(距离)为1时,k个个体中有2/3个是三角形,则目标圆点(预测点)的分类和三角形为一类;当半径(距离)取值为2时,k个特征个体中有3/5个是正方形,则认为预测点和正方形为一类的思想。由此也说明了KNN算法的结果很大程度取决于K的选择。
我们设定要取的k个邻近点来看属于哪一类别的分类时,其实就找距离目标(预测)点最近的k个点就可以了,那么我们就要先求得各个样本点离预测点的距离d。
在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离或名可夫斯基距离:
2、特征值进行标准化:
当特征变量之间差值非常大时,如果不进行标准化处理,则会导致预测错误。如下图,当k值取3时,非标准化计算的距离最近的电影是E、F、D,100%判断为动作片;标准化处理后最近距离的电影是C、B、D,则判断为爱情片,显然更准确。