统计学习方法笔记-K近邻(k-NN)

最新推荐文章于 2020-03-08 08:48:03 发布

小人国的蜗牛

最新推荐文章于 2020-03-08 08:48:03 发布

阅读量243

点赞数

分类专栏：统计学习方法文章标签：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24699745/article/details/78005074

版权

统计学习方法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

K近邻算法

  k近邻算法没有显示的学习过程。算法在预测的时候会根据输入实例到训练集中找出k个与输入实例最近的k个点。k个点中多数属于某个类，就将这个输入实例归为这个类，k为1的时候这个算法也称为最近邻算法。
  整个过程表述如下：
  假设训练集为:

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),\cdots ,(x_N,y_N)\}$

y i \in {c 1, c 2, \dots}

$y_i\in\{c_1,c_2,\cdots\}$
假设输入实例最近的k个点都属于

Nk(x) $N_k(x)$ ，这样的话根据分类决策规则（下面是以多数表决为例）来决定x的类别，如下：

y = a r g max c j \sum x i \in N k (x) I (y i = c i), i = 1, 2, 3, \dots, N; j = 1, 2, 3, \dots

$y=arg\ \max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_i),\ i=1,2,3,\cdots,N;\ j=1,2,3,\cdots$

K近邻算法的三要素

影响k近邻算法的三个主要因素，距离度量，k值的选择以及分类决策规则。这三者以及训练集确定时，其输出结果也确定。

距离度量

为了反映特征空间中两个点间的距离大小，这里需要度量手段来反映，平时常见的有欧式距离, $L_p$ 距离等等。其中 $L_p$ 距离的定义如下：
假设特征空间为 $\mathcal{X}$ ， $x_i,x_j\in\mathcal{X},x_i=(x_i^{(1)},x_i^{(2)}，\cdots,x_i^{(n)})^T$ , $x_i$ 与 $x_j$ 之间的距离如下所示:

L p (x i, x j) = (\sum l = 1 n | x (l) i - x (l) j | p) 1 p

$L_p(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}}$
p为2就是欧式距离，为1就是哈曼顿距离。

K值的选择

K值越小，模型对于输入实例附近的噪声就越敏感，模型也就越容易过拟合。而K值过大，会导致远离输入实例的点也会对预测产生影响，从而引入误差。
一般而言，k会取一个较小的值，然后通过交叉验证的效果来调整k的大小。

分类决策规则

在得到最近的k个点后，如何得到要预测的点的分类就是分类决策需要解决的问题。而前面提到的多数表决就是一种等价于经验风险最小的决策规则（这里不是特别理解希望有大神能证明一下为什么等价于经验风险最小）。

小人国的蜗牛

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法笔记-K近邻(k-NN)

K近邻算法 k近邻算法没有显示的学习过程。算法在预测的时候会根据输入实例到训练集中找出k个与输入实例最近的k个点。k个点中多数属于某个类，就将这个输入实例归为这个类，k为1的时候这个算法也称为最近邻算法。整个过程表述如下：假设训练集为: T={(x1,y1),(x2,y2),⋯,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots ,(x_N,y_N)\}
复制链接

扫一扫

专栏目录

小人国的蜗牛

博客等级

码龄10年

14
原创

30
点赞

97
收藏

38
粉丝

关注

私信

热门文章

分类专栏

最新评论

关于陀螺仪数据处理(得到姿态)的一些方法（1）
qq_44430531: 讲了废话
关于陀螺仪数据处理(得到姿态)的一些方法（1）
qq_43499704: 感觉说了跟没说一样
关于陀螺仪数据处理(得到姿态)的一些方法（1）
宽容人厚载物: ？？
9轴陀螺仪KF系列算法的轴向问题
清风微升至: 说一下自己浅薄的看法。做惯导/组合导航首先需要定坐标系；首先传感器有其输入轴的三轴定义，称传感器坐标系，这在设计时就定好了，而且考虑到了敏感轴的对齐，各传感器的输出都是在自身的坐标系下的。载体的坐标系称载体系，捷联惯导下在传感器安装到载体上，基本上会考虑坐标系的对齐，即传感器系和载体系三轴方向平行，如有不对齐那就得考虑安装误差角了。陀螺仪的三轴就是其敏感轴，即输入轴，根据角速度的定义按照右手螺旋定则可以判断；而如何从陀螺仪输出到欧拉角/四元数/姿态矩阵，可以先推导姿态阵的微分方程，比较有助于理解，然后再看四元数微分方程/等效旋转矢量/欧拉角微分方程。
a newbie in Porto Seguro’s Safe Driver Prediction(solo参赛 TOP 5%)
芋艿ashes: 您好，楼主的Stacking部分不是很懂，不知道可不可以加下楼主的微信，向您请教下？我的微信是hyl1132274748,谢谢~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。