原理:
类型预测:多数表决法,k个最近的邻居中,那种类型所占的比例最大,那我们就预测这个点是哪一种类型。
回归预测:平均法,取k个最近的点的平均值。
KNN三要素
a . k值的选择,一般会选择一个较小的值,然后通过交叉验证的方式的到最合适的终值。
b. 距离的测量,一般选用欧式距离
c. 决策规则:分类,多数表决法;回归预测,平均法。
多数表决法和平均法都存在普通和加权的差别,若是加权的话,一般权重和距离是成反比的。
KD-tree
相比于全量计算目标点和样本点的欧式距离来获取最近的k个值,kd-tree可以更快的找到最近的k个点。
sklearn中的api接口参数说明。