[模式识别]近邻法及错误分析

转自清华大学http://202.197.191.206:8080/30/text/chapter03/3_4_2.htm

本转载不以任何商业利益为目的,只为方便学习,如有侵权请联系删除。

3.4.2.1 最近邻法错误率分析
  其实近邻法的错误率是比较难算的,因为训练样本集的数量总是有限的,有时多一个少一个训练样本对测试样本分类的结果影响很大。譬如图中
红点表示A类训练样本,蓝点表示B类训练样本,而绿点O表示待测样本。假设以欧氏距离来衡量,O的最近邻是A3,其次是B1,因此O应该属于A类,但若A3被拿开,O就会被判为B类。这说明计算最近邻法的错误率会有偶然性,也就是指与具体的训练样本集有关。同时还可看到,计算错误率的偶然性会因训练样本数量的增大而减小。因此人们就利用训练样本数量增至极大,来对其性能进行评价。这要使用渐近概念,以下都是在渐近概念下来分析错误率的。

图 3.17
当最近邻法所使用的训练样本数量N不是很大时,其错误率是带有偶然性的。为了说明这一点我们拿图3.17所示一个在一维特征空间的两类别情况来讨论。图中X表示一特测试样本,而X'是所用训练样本集中X的最邻近者,则错误是由X与X'分属不同的类别所引起的。由于X'与所用训练样本集有关,因此错误率有较大偶然性。但是如果所用训练样本集的样本数量N极大,即N→∞时,可以想像X'将趋向于X,或者说处于以X为中心的极小邻域内,此时分析错误率问题就简化为在X样本条件下X与一个X(X'的极限条件)分属不同类别的问题。如果样本X的两类别后验概率分别为P(ω1|X)与P(ω2|X),那么对X值,在N→∞条件下,发生错误决策的概率为:
       (3-64)
  当训练样本数量无限增多时,一个测试样本X的最近邻在极限意义上讲就是X本身。如果在X处对某一类的的后验概率为P(ω1|X),则另一类为1- P(ω1|X)。那么当前测试样本与它的最近邻都属于同一类才能分类正确,故正确分类率为 ,故有(3-64)式。
  而在这条件下的平均错误率
       (3-65)
  P称为渐近平均错误率,是PN(e)在N→∞的极限。
  为了与基于最小错误率的贝叶斯决策方法对比,下面写出贝叶斯错误率的计算式。
  基于最小错误率贝叶斯决策的错误率是出错最低限,因此要与它作比较。
       (3-66)
  其中      (3-67)
  而      (3-68)
  如果用图3.17中的例子,则从(3-67)可得
        (3-69)
  而从(3-64)得
       (3-70)
  如果用(3-70)减去(3-69),并写成△P,则有
        (3-71)
  从(3-71)式可见在一般情况下△P是大于零的值,只要P(ω1|X)>P(ω2|X)>0。有以下两种例外情况△P=0,这两种情况是P(ω1|X)=1的情况或P(ω1|X)=P(ω2|X)=1/2。 
  请想一下,什么情况下P(ω1|X)=1或P(ω2|X)=1? P(ω1|X)= P(ω2|X)会出现什么什么情况?
  答:一般来说,在某一类样本分布密集区,某一类的后验概率接近或等于1。此时,基于最小错误率贝叶斯决策基本没错,而近邻法出错可能也很小。而后验概率近似相等一般出现在两类分布的交界处,此时分类没有依据,因此基于最小错误率的贝叶斯决策也无能为力了,近邻法也就与贝叶斯决策平起平坐了。
  从以上讨论可以看出,当N→∞时,最近邻法的渐近平均错误率的下界是贝叶斯错误率,这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况。

  在其它条件下,最近邻法的错误率要高于贝叶斯错误率,可以证明以下关系式成立
     (3-72)

图 3.18

  即最近邻法的渐近平均错误率的上下界分别为贝叶斯错误率。图3.18表示了这种关系。由于一般情况下很小,因此(3-72)又可粗略表示成
  
  因此可以说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内。从这点说最近邻法是优良的,因此它是模式识别重要方法之一。

3.4.2.2 k-近邻法错误率分析
  这一节不作基本要求。
  以上我们从定性分析的角度讨论了最近邻法错误率问题,下面以同样的方法更简略地讨论k-近邻法的渐近平均错误率。对于两类别问题,式(3-64)可以改写成
       (3-73)
  推广到k-邻域的情况,则错误出现在k个邻域样本中,正确的类别所占样本未过半数,得到
       (3-74)
  其中
  k邻域出错是指某类样本的k近邻中同类训练样本占少数,仅占一个两个,至多(k-1)/2个,因此这些情况都要考虑,计算就相当复杂了。
  将(3-74)与(3-73)相比较,(3-73)相当于(3-74)中k=1的情况,而在(3-74)中当k增大时 是单调递减的。因此可以得出结论,在N→∞的条件下,k-近邻法的错误率要低于最近邻法,图3-19图示了不同k值时的错误率情况。

  


图 3.18
从图中也可看出,无论是最近邻法,还是k-近邻法,其错误率的上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值