《数据挖掘（完整版）》笔记——最近邻分类器

最新推荐文章于 2024-05-10 17:06:05 发布

大白羊_Aries

最新推荐文章于 2024-05-10 17:06:05 发布

阅读量1.1k

点赞数

分类专栏：读书笔记文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38204302/article/details/104605985

版权

读书笔记专栏收录该内容

13 篇文章 3 订阅

订阅专栏

最近邻分类器

- 1. 算法
- 2. 最近邻分类器的特征

决策树和基于规则的分类器是 积极学习方法的例子，因为如果训练数据可用，衙门就开始学习从输入属性到类标号的映射模型。与之相反的策略是推迟对训练数据的建模，知道需要分类测试样例时再进行，采用这种策略的技术被称为 消极学习方法

消极学习方法的一个例子是Rote分类器，它记住整个训练数据，仅当测试实例的属性和某个训练样例完全匹配才进行分类

使用该方法更灵活的一个途径是找出和测试样例的属性相对接近的所有训练样例。给定样例 $z$ 的k-近邻是指和 $z$ 距离最近的k个数据点

1. 算法

在这里插入图片描述
一旦得到最近邻表，测试样例就会根据最近邻中的多数类进行分类：

$\underset{v}{argmax} \sum_{(x_i,y_i \in D_z)}I(v=y_i)$

$v$ 是类标号， $y_i$ 是一个最近邻的类标号， $I(\cdot)$ 是示性函数

每个近邻对分类的影响都一样，这使得算法对 $k$ 的选择很敏感。降低 $k$ 的影响的一种途径就是根据每个最近邻 $x_i$ 距离的不同对其作用加权： $w=\frac{1}{d}(x',x_i)^2$ . 结果使得远离 $z$ 的训练样例对分类的影响要比那些靠近 $z$ 的训练样例弱一些。使用距离加权表决方案，类标号可以由下面的公式确定

$\underset{v}{argmax} \sum_{(x_i,y_i \in D_z)}w_i\times I(v=y_i)$

2. 最近邻分类器的特征

最近邻分类属于一类更广泛的技术，这种技术称为基于实例的学习，他使用具体的训练实例进行预测，而不必维护源自数据的抽象（或模型）。基于实例的学习算法需要邻近性度量来确定实例间的相似性或距离，还需要分类函数根据测试实例与其他实例的近邻性返回测试实例的预测类标号
消极学习方法不需要建模，然而，分类测试样例的开销很大，需要逐个计算测试样例和训练样例之间的相似度
KNN基于局部信息进行预测，正是因为这样的局部分类决策，KNN（尤其k很小时）对噪声非常敏感
KNN的决策边界有很高的可变性，因为它们依赖于训练样例的组合，增加最近邻的数目可以降低这种可变性

大白羊_Aries

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘（完整版）》笔记——最近邻分类器

最近邻分类器1. 算法2. 最近邻分类器的特征决策树和基于规则的分类器是积极学习方法的例子，因为如果训练数据可用，衙门就开始学习从输入属性到类标号的映射模型。与之相反的策略是推迟对训练数据的建模，知道需要分类测试样例时再进行，采用这种策略的技术被称为消极学习方法消极学习方法的一个例子是Rote分类器，它记住整个训练数据，仅当测试实例的属性和某个训练样例完全匹配才进行分类使用该方法更灵活的一个...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。