说点没用的:前段时间一直在忙毕业论文的事情,时间比较紧凑,这几天闲下来了,blog还是要捡起来加油写的,加油吧,为不要成为中年失业者而奋斗!
1、k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别(可以取多类)。
2、k近邻算法的通过周围的多个点,通过多数表决的方法进行预测,因此k近邻算法不拥有显式的学习过程。
3、k值的选择,距离度量及分类决策规则是k近邻算法的三个基本要素。
4、距离度量:一般情况下用距离和Minkowski度量
设特征空间X是n维实数向量空间,
的距离定义为:
当p=1时,距离为曼哈顿距离;当p=2时,距离为欧氏距离;当p=∞的时候,他是各个坐标距离的最大值
5、k值的选取问题,k如果过小会造成过拟合,k过大会造成莫模型整体变得简单,预测效果差,确定k的方法一般情况下选取一个较小的k值,然后采取交叉验证法选取最优的k值。
6、k近邻算法的分类规则往往是多数表决,即由输入的实例的k个临近点的多数类决定输入点的类别。多数表决规则等于经验风险化。
7、k近邻算法实现需要考虑如何快速搜索k个最近邻点,这里使用的是kd树,可以大幅缩短搜索速度。