5.2 Bayes判别法及广义平方距离判别法
关于贝叶斯统计思想这里只作简单介绍,更进一步地可以看数理统计。
不爱起床的燕林:数理统计第16讲(贝叶斯点估计:先验信息,先验分布,后验分布)
(一)贝叶斯统计思想回顾
首先简要回顾下贝叶斯统计思想。与频率学派不同,贝叶斯学派认为代估参数并不是一个常数,而是一个随机变量。我们事先知道这个随机变量的“先验分布”,然后通过样本来“修正”这个先验分布,以得到“后验分布”。之后所有的统计推断都是基于后验分布进行的。
确定先验分布的几个方法:
- 基于历史数据
- 基于训练数据
- 无信息先验--先验概率都一样
错判概率的估计方法:
- 对训练集回判,计算错判率
- 如果训练集比较大, 选取其中一部分回判
- 舍一法(交叉检验法):每次留出 1 个样本,利用其它 n-1 个样本进行训练,对留出的样本回判,共进行 n 次,计算错判率
在贝叶斯判别中,后验概率的形式如下
其中
为第 i 类的
先验概率,
为第 i 类的
密度函数。
如果假设总体服从正态分布,那么密度函数为
其中
后验概率可以写为
为
广义平方距离,在后面会具体介绍。形式上看,后验概率达到最大时,广义平方距离达到最小。此时贝叶斯判别和广义平方距离判别是等价的。
将贝叶斯统计思想应用于判别分析,就是贝叶斯判别。其中贝叶斯判别的关键在于如何把样本空间分成 k 类。
注意:以上均没有考虑错判损失,事实上贝叶斯判别并不是简单地使得后验概率最大,而是使得错判损失最小!
(二)贝叶斯判别准则
实际上是对样本空间进行分类,基本准则是使得错判损失达到最小。
(1)错判概率和错判损失
将第 i 类错判为第 j 类的概率如下:
即真实的样本联合密度函数
在误判的第 j 类区域
上的积分。