近邻法简介

最新推荐文章于 2024-06-27 21:30:00 发布

沙漠之狐MSFollower

最新推荐文章于 2024-06-27 21:30:00 发布

阅读量4.5k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LiuPeiP_VIPL/article/details/108559523

版权

机器学习专栏收录该内容

32 篇文章 0 订阅

订阅专栏

在机器学习中，常用的近邻法包括最近邻法、K-近邻法、剪辑近邻法、以及压缩近邻法。本篇文章，我们将对这几种方法进行介绍。

一、最近邻法：

（1）对未知样本x进行分类：求样本集合 S_N 中与之距离最近的样本，设该样本为 $x^'$ 且样本对应的类别为 ${\theta}^'$ 。则有：

$\delta(x,x^{'}) =\underset{i=1,2,3,...,N}{min}\delta(x,x_{i})$

依照最近邻法，因此将样本x分成类别 ${\theta}^'$ 。

（2）写成判别函数的形式为：

w_i 类的判别函数可以写作：

$g_i(x) =\underset{x_j \in w_i }{min}\delta(x,x_{j}),i=1,2,3,...c$

决策规则为各类的判别函数比较大小，即：

若 $g_k(x) =\underset{i=1,2,3...c }{min}g_i(x)$ ，则 $x \in w_k$

（3）研究表明，在已知样本数量足够的情况下，这种直观的最近邻决策可以取得很好的效果，其错误率为p。

$p^\ast \leq p\leq p^\ast(2-\frac{c}{c-1} p^\ast)$

这里， $p^\ast$ 为贝叶斯错误率（即理论最优错误率），c为类别数。

二、K-近邻法：

（1）定义：计算集合中每个样本与待分类（新）样本的距离，选择前若干个离新样本最近的已知（分类）样本，用它们的类别来投票决定新样本的类别。这种方法称为k-近邻法（因为人们习惯上把参与投票的近邻样本的个数记作k）。

（2）判别函数的形式为：设有N个已知样本分属于c个类别 w_i,i=1,2,3...c 。考察新样本x在这些样本中的前k个近邻，设其中有 k_i 个样本属于 w_i 类，则 w_i 类的判别函数为：

g_i(x)=k_i,i=1,2,3...c

决策规则为：

若 $g_k(x) =\underset{i=1,2,3...c }{max}g_i(x)$ ，则 $x \in w_k$

三、剪辑近邻法：

（1）定义：考试集和训练集方法识别出交界区的样本：

① 将已知样本集划分为考试集 $\chi ^{NT}$ 和训练集 $\chi ^{NR}$ 。用训练集 $\chi ^{NR}$ 对考试集 $\chi ^{NT}$ 进行近邻法分类（前述两种方法可任选），从 $\chi ^{NT}$ 中剔除被错误分类的样本，剩余的样本构成剪辑样本集 $\chi ^{NTE}$ ， $\chi ^{NTE}$ 对未来样本进行近邻法分类。

② 对于任意的x，采用一近邻剪辑法的错误率 P^E_1(e|x) 可以由近邻法的错误率 P(e|x) 来表示：

$P^E_1(e|x)=\frac{P(e|x)}{2(1-P(e|x))}$

（2）多重剪辑方法MULTIEDIT：（迭代+剪辑）

① 划分：将样本集随机划分为S个子集， $\chi_1,\chi_2,\chi_3,...\chi_s,s\geq3$ ；

② 分类：用 $\chi_{(i+1)mod(s)}$ 对 $\chi_{i}$ 中的样本进行分类， $i\in[1,s]$ ；

③ 剪辑：从各个 $\chi_{i}$ 子集中去掉在②中被错误分类的样本；

④ 混合：把剩余的样本合在一起，形成新的样本集合 $\chi ^{NE}$ ；

⑤ 迭代：用新样本集替代原样本集，转向①。如果在最近的m次迭代中都没有样本被剪掉，则停止迭代，用最后的 $\chi ^{NE}$ 作为剪辑后的样本集对未知样本进行分类。

四、压缩近邻法：

（1）原理：考察近邻法的分类原理，可以发现远离分类边界的样本对最后的分类决策没有贡献。如果找出各类中最有利与其他类区分的代表性样本，就可以简化决策过程中的计算。

（2）算法：将样本集 $\chi ^{N}$ 分为 $\chi _S$ 和 $\chi _G$ 两个活动的子集，前者称为储存集storage，后者称为备选集GrabBag。算法开始时， $\chi _S$ 中只有一个样本，其余样本均在 $\chi _G$ 中。考察 $\chi _G$ 中的每一个样本，若用 $\chi _S$ 中的样本能够对它进行正确分类，则该样本保留在 $\chi _G$ 中，否则移到 $\chi _S$ 中。依此类推，直到不移动样本为止。最后用 $\chi _S$ 中的样本对未知样本进行分类。

（3）压缩近邻法与支持向量机的关系：

①：支持向量机求解最大化分类间隔的最优分类面，得到一组能够代表样本集中全部分类信息的支持向量；

②：压缩近邻法是通过启发式的方法寻求用较少的样本来代表样本集中的分类信息。

沙漠之狐MSFollower

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。