《统计学习方法》第三章总结

第三章讲的是K邻近法,一种基本分类与回归的方法。简单描述就是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为这个类。


例如上图,图中有红色的三角形类和蓝色的方块类,绿色的是待分类的对象,如果我们取K=3,那么很显然在绿色圆周围有两个红的一个蓝的,绿色的圆应该归为红色的一类,但是如果选择K=5,绿色的圆周围有三个蓝的两个红的,绿色的应该归为蓝色的一类。由此我们也可以看出,如果K比较小,对数据就比较敏感,只在小的范围内起作用;如果K比较大,对数据就不会很敏感,较大范围内的数据都会发生作用,也会造成误差,正如上图中K取5的情况。因此在K邻近法中很关键的一点就是K的取值要适当。


K邻近法使用的模型实际上对应于特征空间的划分。模型由三个基本要素——距离度量,K的选择,分类决策规则决定。

特征空间中两个实例点的距离是两个实例点相似程度的反映。常见的欧式距离,曼哈顿距离。



分类决策规则是使误分类率即经验风险最小,所以多数表决规则等价于经验风险最小化。

KD数是K邻近法实现的一种方法。是一种对K维空间实例点进行存储以便对其进行快速检索的树形数据结构kd树是二叉树,表示对K维空间的划分。


举个例子:

确定:split=x。具体是:6个数据点在xy维度上的数据方差分别为3928.63,所以在x轴上方差更大,故split域值为x

确定:Node-data = 7,2)。具体是:根据x维上的值将数据排序,6个数据的中值(所谓中值,即中间大小的值)7,所以Node-data域位数据点(7,2)。这样,该节点的分割超平面就是通过(7,2)并垂直于:split=x轴的直线x=7

确定:左子空间和右子空间。具体是:分割超平面x=7将整个空间分为两部分:x<=7的部分为左子空间,包含3个节点={(2,3),(5,4),(4,7)};另一部分为右子空间,包含2个节点={(9,6)(8,1)}

    如上算法所述,kd树的构建是一个递归过程,我们对左子空间和右子空间内的数据重复根节点的过程就可以得到一级子节点(5,4)和(9,6),同时将空间和数据集进一步细分,如此往复直到空间中只包含一个数据点。最后得到如图所示的图形结构以及最终的kd树。


利用kd树,我们可以对数据进行快速的查询与搜索。



举一个例子:



  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值