[模式识别]近邻法及错误分析

最新推荐文章于 2023-11-10 14:45:59 发布

CristianoJason

最新推荐文章于 2023-11-10 14:45:59 发布

阅读量4.5k

点赞数

分类专栏：模式识别与机器学习文章标签：模式识别近邻法上下界

模式识别与机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

转自清华大学http://202.197.191.206:8080/30/text/chapter03/3_4_2.htm

本转载不以任何商业利益为目的，只为方便学习，如有侵权请联系删除。

3.4.2.1 最近邻法错误率分析
　　其实近邻法的错误率是比较难算的，因为训练样本集的数量总是有限的，有时多一个少一个训练样本对测试样本分类的结果影响很大。譬如图中

红点表示A类训练样本，蓝点表示B类训练样本，而绿点O表示待测样本。假设以欧氏距离来衡量，O的最近邻是A₃，其次是B₁，因此O应该属于A类，但若A₃被拿开，O就会被判为B类。这说明计算最近邻法的错误率会有偶然性，也就是指与具体的训练样本集有关。同时还可看到，计算错误率的偶然性会因训练样本数量的增大而减小。因此人们就利用训练样本数量增至极大，来对其性能进行评价。这要使用渐近概念，以下都是在渐近概念下来分析错误率的。

图 3.17

当最近邻法所使用的训练样本数量N不是很大时，其错误率是带有偶然性的。为了说明这一点我们拿图3.17所示一个在一维特征空间的两类别情况来讨论。图中X表示一特测试样本，而X'是所用训练样本集中X的最邻近者，则错误是由X与X'分属不同的类别所引起的。由于X'与所用训练样本集有关，因此错误率有较大偶然性。但是如果所用训练样本集的样本数量N极大，即N→∞时，可以想像X'将趋向于X，或者说处于以X为中心的极小邻域内，此时分析错误率问题就简化为在X样本条件下X与一个X(X'的极限条件)分属不同类别的问题。如果样本X的两类别后验概率分别为P(ω₁|X)与P(ω₂|X)，那么对X值，在N→∞条件下，发生错误决策的概率为：
　　

　　　　　(3-64)
　　当训练样本数量无限增多时，一个测试样本X的最近邻在极限意义上讲就是X本身。如果在X处对某一类的的后验概率为P(ω₁|X)，则另一类为1- P(ω₁|X)。那么当前测试样本与它的最近邻都属于同一类才能分类正确，故正确分类率为

，故有(3-64)式。
　　而在这条件下的平均错误率
　　

　　　　　(3-65)
　　P称为渐近平均错误率，是P_N(e)在N→∞的极限。
　　为了与基于最小错误率的贝叶斯决策方法对比，下面写出贝叶斯错误率的计算式。
　　基于最小错误率贝叶斯决策的错误率是出错最低限，因此要与它作比较。
　　

　　　　　(3-66)
　　其中

　　　　　(3-67)
　　而

　　　　　(3-68)
　　如果用图3.17中的例子，则从(3-67)可得
　　

　　　　　(3-69)
　　而从(3-64)得
　　

　　　　　(3-70)
　　如果用(3-70)减去(3-69)，并写成△P，则有
　　

　　　　　(3-71)
　　从(3-71)式可见在一般情况下△P是大于零的值，只要P(ω₁|X)＞P(ω₂|X)＞0。有以下两种例外情况△P＝0，这两种情况是P(ω₁|X)＝1的情况或P(ω₁|X)＝P(ω₂|X)＝1/2。
　　请想一下，什么情况下P(ω₁|X)＝1或P(ω₂|X)=1? P(ω₁|X)= P(ω₂|X)会出现什么什么情况？
　　答：一般来说，在某一类样本分布密集区，某一类的后验概率接近或等于1。此时，基于最小错误率贝叶斯决策基本没错，而近邻法出错可能也很小。而后验概率近似相等一般出现在两类分布的交界处，此时分类没有依据，因此基于最小错误率的贝叶斯决策也无能为力了，近邻法也就与贝叶斯决策平起平坐了。
　　从以上讨论可以看出，当N→∞时，最近邻法的渐近平均错误率的下界是贝叶斯错误率，这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况。
　　在其它条件下，最近邻法的错误率要高于贝叶斯错误率，可以证明以下关系式成立
　　

　　　(3-72)

图 3.18

　　即最近邻法的渐近平均错误率的上下界分别为贝叶斯错误率

及

。图3.18表示了这种关系。由于一般情况下

很小，因此(3-72)又可粗略表示成
　　

　　因此可以说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内。从这点说最近邻法是优良的，因此它是模式识别重要方法之一。

3.4.2.2 k-近邻法错误率分析
　　这一节不作基本要求。
　　以上我们从定性分析的角度讨论了最近邻法错误率问题，下面以同样的方法更简略地讨论k-近邻法的渐近平均错误率。对于两类别问题，式(3-64)可以改写成
　　　　　　　(3-73)
　　推广到k-邻域的情况，则错误出现在k个邻域样本中，正确的类别所占样本未过半数，得到
　　　　　　　(3-74)
　　其中
　　k邻域出错是指某类样本的k近邻中同类训练样本占少数，仅占一个两个，至多(k-1)/2个，因此这些情况都要考虑，计算就相当复杂了。
　　将(3-74)与(3-73)相比较，(3-73)相当于(3-74)中k＝1的情况，而在(3-74)中当k增大时是单调递减的。因此可以得出结论，在N→∞的条件下，k-近邻法的错误率要低于最近邻法，图3-19图示了不同k值时的错误率情况。
　　

图 3.18

从图中也可看出，无论是最近邻法，还是k-近邻法，其错误率的上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。

CristianoJason

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
[模式识别]近邻法及错误分析

转自清华大学http://202.197.191.206:8080/30/text/chapter03/3_4_2.htm本转载不以任何商业利益为目的，只为方便学习，如有侵权请联系删除。3.4.2.1 最近邻法错误率分析　　其实近邻法的错误率是比较难算的，因为训练样本集的数量总是有限的，有时多一个少一个训练样本对测试样本分类的结果影响很大。譬如图中
复制链接

扫一扫