统计学习方法(李航)学习笔记(三)k近邻法

说点没用的:前段时间一直在忙毕业论文的事情,时间比较紧凑,这几天闲下来了,blog还是要捡起来加油写的,加油吧,为不要成为中年失业者而奋斗!

1、k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别(可以取多类)。

2、k近邻算法的通过周围的多个点,通过多数表决的方法进行预测,因此k近邻算法不拥有显式的学习过程。

3、k值的选择,距离度量及分类决策规则是k近邻算法的三个基本要素。

4、距离度量:一般情况下用L_p距离和Minkowski度量

设特征空间X是n维实数向量空间R^nx_i,x_j \epsilon X,x_i={(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})}^T,x_j={(x_j^{(1)},x_j^{(2)},...,x_j^{(n)})}^T

x_i,x_jL_p距离定义为:

                                                                      L_p(x_i,x_j)={\sum_{l=1}^{n}({\left | x_i^{l}-x_j^{l} \right |}^p})^{\frac{1}{p}}

当p=1时,距离为曼哈顿距离;当p=2时,距离为欧氏距离;当p=∞的时候,他是各个坐标距离的最大值

                                                                     L_\infty (x_i,x_j)=max_l \left | x_i^{(l)}-x_j^{(l)} \right |

5、k值的选取问题,k如果过小会造成过拟合,k过大会造成莫模型整体变得简单,预测效果差,确定k的方法一般情况下选取一个较小的k值,然后采取交叉验证法选取最优的k值。

6、k近邻算法的分类规则往往是多数表决,即由输入的实例的k个临近点的多数类决定输入点的类别。多数表决规则等于经验风险化。

7、k近邻算法实现需要考虑如何快速搜索k个最近邻点,这里使用的是kd树,可以大幅缩短搜索速度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值