《统计学习方法》第三章总结

最新推荐文章于 2022-02-09 12:30:00 发布

哈特谢普苏特

最新推荐文章于 2022-02-09 12:30:00 发布

阅读量930

点赞数

分类专栏：统计学习方法文章标签：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31390999/article/details/79187321

版权

统计学习方法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

第三章讲的是K邻近法，一种基本分类与回归的方法。简单描述就是：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分为这个类。

例如上图，图中有红色的三角形类和蓝色的方块类，绿色的是待分类的对象，如果我们取K=3，那么很显然在绿色圆周围有两个红的一个蓝的，绿色的圆应该归为红色的一类，但是如果选择K=5，绿色的圆周围有三个蓝的两个红的，绿色的应该归为蓝色的一类。由此我们也可以看出，如果K比较小，对数据就比较敏感，只在小的范围内起作用；如果K比较大，对数据就不会很敏感，较大范围内的数据都会发生作用，也会造成误差，正如上图中K取5的情况。因此在K邻近法中很关键的一点就是K的取值要适当。

K邻近法使用的模型实际上对应于特征空间的划分。模型由三个基本要素——距离度量，K的选择，分类决策规则决定。

特征空间中两个实例点的距离是两个实例点相似程度的反映。常见的欧式距离，曼哈顿距离。

分类决策规则是使误分类率即经验风险最小，所以多数表决规则等价于经验风险最小化。

KD数是K邻近法实现的一种方法。是一种对K维空间实例点进行存储以便对其进行快速检索的树形数据结构kd树是二叉树，表示对K维空间的划分。

举个例子：

确定：split域=x。具体是：6个数据点在x，y维度上的数据方差分别为39，28.63，所以在x轴上方差更大，故split域值为x；

确定：Node-data = （7,2）。具体是：根据x维上的值将数据排序，6个数据的中值(所谓中值，即中间大小的值)为7，所以Node-data域位数据点（7,2）。这样，该节点的分割超平面就是通过（7,2）并垂直于：split=x轴的直线x=7；

确定：左子空间和右子空间。具体是：分割超平面x=7将整个空间分为两部分：x<=7的部分为左子空间，包含3个节点={(2,3),(5,4),(4,7)}；另一部分为右子空间，包含2个节点={(9,6)，(8,1)}；

如上算法所述，kd树的构建是一个递归过程，我们对左子空间和右子空间内的数据重复根节点的过程就可以得到一级子节点（5,4）和（9,6），同时将空间和数据集进一步细分，如此往复直到空间中只包含一个数据点。最后得到如图所示的图形结构以及最终的kd树。

利用kd树，我们可以对数据进行快速的查询与搜索。

举一个例子：

哈特谢普苏特

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
《统计学习方法》第三章总结

第三章讲的是K邻近法，一种基本分类与回归的方法。简单描述就是：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分为这个类。例如上图，图中有红色的三角形类和蓝色的方块类，绿色的是待分类的对象，如果我们取K=3，那么很显然在绿色圆周围有两个红的一个蓝的，绿色的圆应该归为红色的一类，但是如果选择K=5，绿色的圆周围有三
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。