数模分析第五天---判别分析

由往年美赛题分析
在这里插入图片描述
在这里插入图片描述
需由函数来判别新样本属于哪个总体,由此我们引入判别分析。

距离判别

简单来说就是通过样品到总体的距离来判断属于哪个总体。

欧几里得距离

在这里插入图片描述
在这里插入图片描述
A到G1的中心欧几里得距离比到G2中心的欧几里得距离近,是否A处的样品属于总体1呢?
而总体G1的样本则非常集中,因此A处的样品属于总体G 2 的概率明显大于属于总体G1的概率,也就是说,A处的样品属于总体G2的“可能性”明显大于属于总体G1的“可能性”。
我们得出:
用欧几里得距离来度量样品到总体的距离具有局限性。

马氏距离

在这里插入图片描述
在这里插入图片描述
要判断新样本来自哪个总体,则只需计算新样本到两个总体的马氏距离。
在这里插入图片描述
进一步简化该判别式,可用以下方法:
在这里插入图片描述
通常地, a称为判别系数向量, W 称为线性判别函数。在实际应用中,总体的均值和协方差阵一般是未知的,我们所知道的仅仅是一组样本或者观测值, 在这种情况下,就需要利用数理统计的知识对各项数值进行估计。
在这里插入图片描述

距离判别不足

距离判别方法简单实用,容易实现,并且结论的意义明确。但距离判别有以下缺点:
(1) 没有考虑各总体本身出现的可能性;
(2) 错判造成的损失在距离判别中也没有考虑。
为了克服这些不足,下面介绍Bayes 判别。

贝叶斯判别

所谓贝叶斯(Bayes) 判别,就是在考虑各总体的先验概率错判损失情况下, 给出空间的一个划分使得运用此划分来判别归类时,所带来的平均错判损失最小。

先验概率可定为蠓虫的6/15,9/15,也可设置为一致或是由经验和文献进行估计。
错判损失可由经验和文献进行估计。
记错判损失为:
L(j | i) (i,j=1,2…k)

在这里插入图片描述
精确计算误判概率是一个非常困难的问题,实际应用中,一般根据一定的规则来估计误判概率
(1) 利用训练样本为检验集,用判别方法对训练样本进行判断,统计误判的样本个数,计算误判样本占总样本的比例,并作为误判概率的估计值;
(2) 当训练样本足够大时,从训练样本中预留一部分作为检验集, 记录判错比率, 作为误判概率的估计
(3) 运用舍一法:每次预留一个样本来检验,用剩下的样本建立判别准则,循环检验完所有训练样本, 记录判错的比率, 以此作为误判概率的估计值。

确定平均损失

在这里插入图片描述
能找到D使得g(D)即平均损失最小,即为贝叶斯判别的解。

解题步骤

在介绍了判别分析方法后,具体解题步骤如下:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

检验判别模型

1.回代误判法

n12:属于G1被误判属于G2的样本个数。
n21: 属于G2被误判属于G1的样本个数。
则回代误判率为:
在这里插入图片描述
2.交叉验证法
从G1的n1个样本中每次留一个作为验证样本, 其余n1 -1个与G2的n2个一起作为训练样本建立判别准则, 检验验证样本。
在这里插入图片描述

总结

距离判别方法思路简单、直观,应用广泛,特别是线性距离判别模型.
距离判别方法的缺点:没有考虑环境中不同总体出现的概率会有差别。没有涉及误判造成的损失.。而Bayes 判别模型弥补了这些缺陷。
模型检验用的回代误判法虽然简单,缺点是建立与检验判别准则使用相同的样本,往往会低估误判率。交叉验证法 虽计算量较大,但克服了回代法的缺点 ,是一种较好的检验方法。

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

看星河的兔子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值