系列文章:
同类文章:
机器学习笔记—模式分类(二)参数判别估计法(最大似然估计和贝叶斯参数估计)1
1、贝叶斯决策基本概念
分类器参数的选择或学习过程得到的结果取决于设计者选择什么样的准则函数,不同准则函数的最优解对应不同的学习结果,得到性能不同的分类器。
分类的可能性可用P(w1|x)表示,如何做出合理的判决就是贝叶斯决策要讨论的问题,核心是根据各类先验概率P(w1)及类条件概率密度函数p(x|w1),计算出样品的后验概率P(w1|x)
其中具有代表性的是基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策。
贝叶斯公式反映了后验概率与先验概率、似然函数(有的地方把它称为类条件概率密度函数)之间的关系:
根据贝叶斯公式可以将分类判别的后验概率计算转换为先验概率(通常容易求出)和似然函数/类条件概率密度函数的计算问题,如果函数服从已知的分布只是参数未知,则可以进一步转换为估计该概率分布的相关参数问题(属于极大似然方法)。
2、基于最小错误率的贝叶斯决策
基于最小错误率的贝叶斯决策就是按后验概率的大小判决的,看代表哪个类别后验概率的判决函数值最大,就归于哪个类别。
判决函数的形式除了后验概率形式,利用贝叶斯公式还有似然比形式、对数形式,可以互相转换。
可以证明,贝叶斯决策具有最小的平均错误率(各类判决错误情况对应的错误率之和)
3、基于最小风险的贝叶斯决策
(1)相关定义
自然状态与状态空间:自然状态该指待识别对象的类别,状态空间指由所有自然状态/类别wi组成的空间。
决策与决策空间:决策论中的决策指对分类问题所做的判决,由所有决策组成的空间称为决策空间;决策不仅包括根据观测值将样品归到哪一类别,还可以包括其他决策比如“拒绝”等,而在不考虑“拒绝”的情况下,决策空间内决策总数等于类别数M,表示为
A={α1, α2,..., αM}。
损失函数:损失函数λ(αi,j)表示真实自然状态/类别为wj,但做出决策αi使其归属于自然状态/类别wi所造成的损失。
条件风险:待分类样本X的期望损失
R(αi|X)=Σλ(αi,j)P(wj|X),j=1,2,..,M
(2)最小风险贝叶斯决策
R(αk|X)=min(R(αi|X)),i=1,2,...,M;
判决为wk类别
在给出某些变量的条件下,能使分类所造成的平局损失最小,或分类决策的风险最小。
4、贝叶斯决策比较
基于最小风险的贝叶斯决策方法在实际应用中的要给关键问题是正确指定损失函数值,在0-1损失函数情况下,最小风险贝叶斯决策记过就是最小错误率贝叶斯决策结果。
贝叶斯决策需要对特征空间中的各类样品的分布了解清楚,得到训练集样品总体的分布知识;
若能从训练样品估计近似的正态分布,可以按贝叶斯决策方法对分类器进行设计,根据参数各类先验概率P(w1)及类条件概率密度函数p(x|w1),计算出样品的后验概率P(w1|x),并据此设计出相应的判别函数与决策面,这种贝叶斯决策方法属于参数估计判别方法
参数估计判别方法包括最大似然估计和贝叶斯参数估计,一般用在有统计知识的场合或者能用训练样品估计出参数的场合。