HMM study:贝叶斯(1):贝叶斯决策

贝叶斯决策(1)

贝叶斯决策论考虑基于已知概率和误判损失来选择最优的标记类别。 本博在梳理贝叶斯决策的同时主要关注对于某些概念的理解。
本博主要参考西瓜书第七章。

样本误判产生的风险(损失) λ i j \lambda_{ij} λij

不同类别的误判概率可能不同,贝叶斯决策中用 λ i j \lambda_{ij} λij 来表示 c j c_j cj 类误判为 c i c_i ci 类产生的损失 。初学者可能对损失存在疑问。
我认为:损失是自己根据实际情况自己定义下的,可能没有明确的单位,但是是一个能够衡量事件对后果的影响的“抽象量”。例如: 阿尔兹海默症患者的诊断中,将非患者诊断为患者的损失远远小于将患者诊断为非患者的损失,因为阿尔兹海默症是无法治疗而只能控制的疾病,若患者无法被正确诊断,会耽误就诊时机(这就是所谓损失的一种),而非患者就算误诊“损失也没有这么大”。

期望损失(风险)

期望损失表示将某样本 x \textbf{x} x 判断为某一类 c i c_i ci产生的期望损失,通过后验概率计算:
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|\textbf{x})=\sum_{j=1}^{N}\lambda_{ij}P(c_j|\textbf{x}) R(cix)=j=1NλijP(cjx)
物理意义: x \textbf{x} x可能属于N个类中的任意一类, x \textbf{x} x 被分为 c j c_j cj 的概率为 P ( c j ∣ x ) P(c_j|\textbf{x}) P(cjx),若将 x \textbf{x} x随意分类为 c i c_i ci(例如i=1),则期望损失就是所有类别分为 c i c_i ci类的损失的平均(也就是 λ 1 j , j = 1 : N \lambda_{1j},j=1:N λ1j,j=1:N求平均(自变量为“损失”,根据发生的概率直接求平均即可))
注意: 自变量为误判风险(损失)

最小化总体风险

总体风险 R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=E_x[R(h(\textbf{x})|\textbf{x})] R(h)=Ex[R(h(x)x)],最小化 R ( h ) R(h) R(h),也即寻找一个合适的判定准则 h h h使 R ( h ) R(h) R(h)最小。

贝叶斯决策准则、贝叶斯最优分类器、贝叶斯风险

对于每一个样本若是 h h h能够最小化条件风险 R ( h ( x ) ∣ x ) R(h(\textbf{x})|\textbf{x}) R(h(x)x),则总体风险也就最小了;
这就是贝叶斯判定准则:为了最小化总体风险,只需要在每个样本上选择那个能够使条件风险 R ( c ) ∣ x ) R(c)|\textbf{x}) R(c)x) 最小化的类别标记。(这样做的基础为:总体风险是根据总体样本分类结果计算得到的(单个样本分类结果对应一个分类风险,总体风险就是单个风险的和),而 h h h代表了一种分类方式比如,选择某个特征最大的那个类别作为当前样本的类别。)
也即: h ∗ ( x ) = a r g m i n c ∈ γ R ( c ∣ x ) h^*(\textbf{x})=argmin_{c\in\gamma}R(c|\textbf{x}) h(x)=argmincγR(cx)
h ∗ h^* h就成为贝叶斯最优分类器,与之对应的总体风险 R ( h ∗ ) R(h^*) R(h)被称为贝叶斯风险
1 − R ( h ∗ ) 1-R(h^*) 1R(h)反映了分类器能够达到的最好性能,也就是机器学习能够产生的模型精度的理论上限

最小化分类错误率

若目标是最小化分类错误率,则
λ i j = 0 , i f ( i = = j ) ; λ i j = 1 , e l s e \lambda_{ij}=0,if(i==j);\lambda_{ij}=1,else λij=0,if(i==j);λij=1,else
此时条件风险 R ( c ∣ x ) = 1 − p ( c ∣ x ) R(c|\textbf{x})=1-p(c|\textbf{x}) R(cx)=1p(cx),那么贝叶斯最优分类器:
h ∗ ( x ) = a r g m a x c ∈ γ P ( c ∣ x ) h^*(\textbf{x})=argmax_{c\in\gamma}P(c|\textbf{x}) h(x)=argmaxcγP(cx)
然后分类策略问题就转化为最大后验概率的估计问题。

贝叶斯最优估计

由上述的最小化分类误差,可以得知贝叶斯决策论选择了能够使分类误差最小的分类决策,保证预测概率最小化,所以被称为“最优”。

极大似然估计

贝叶斯定理: P ( c ∣ x ) = P ( c ) ∗ P ( x ∣ c ) / P ( x ) P(c|\textbf{x})=P(c)*P(\textbf{x}|c)/P(\textbf{x}) P(cx)=P(c)P(xc)/P(x)
P ( c ∣ x ) P(c|\textbf{x}) P(cx)为后验概率; P ( c ) P(c) P(c)是类“先验概率”; P ( x ∣ c ) P(\textbf{x}|c) P(xc)是样本 x \textbf{x} x相对于标记类 c c c的“类条件概率”,也就是“似然”; P ( x ) P(\textbf{x}) P(x)与类无关,相当于是一个“归一化因子”。所以估计 P ( c ∣ x ) P(c|\textbf{x}) P(cx)的问题就转化为了基于训练数据来估计先验概率 P ( c ) P(c) P(c)和类条件概率(似然) P ( x ∣ c ) P(\textbf{x}|c) P(xc)

类条件概率(似然) P ( x ∣ c ) P(\textbf{x}|c) P(xc)的估计策略通常为:假定其有某种固定的概率分布形式,再基于训练样本对概率分布的参数进行估计
**条件概率的估计的物理意义可以理解为:在样本集合中,C类中的样本的特征的分布是什么样的。**比如假定固定的概率分布形式为高斯分布,则我们只需要对高斯分布的均值与方差进行估计就可以了(基本为样本估计总体,通过样本计算均值与方差)。
类条件概率(似然) P ( x ∣ c ) P(\textbf{x}|c) P(xc)的分布形式估计完成后,将样本对应的值代入分布(C代表类别通常有多个如 c 1 , c 2 . . . c_1,c_2... c1,c2...),我们选择得到的类条件概率大的对应的类作为当前样本的类别。

最大后验概率估计

贝叶斯定理: P ( c ∣ x ) = P ( c ) ∗ P ( x ∣ c ) / P ( x ) P(c|\textbf{x})=P(c)*P(\textbf{x}|c)/P(\textbf{x}) P(cx)=P(c)P(xc)/P(x),似然概率大不能代表后验概率大,还需要“先验概率” P ( c ) P(c) P(c)大,通常训练分类器时,先验概率是可以直接通过样本估计出来的。所以并不麻烦。

朴素贝叶斯

类条件概率(似然) P ( x ∣ c ) P(\textbf{x}|c) P(xc) x \textbf{x} x代表样本的特征,实质上是一种联合分布。通过样本估计联合分布是很麻烦的,朴素贝叶斯假设样本特征相互独立 P ( x ∣ c ) = Π i = 1 : m P ( x i ∣ c ) P(\textbf{x}|c)=\Pi_{i=1:m}{P(x_i|c)} P(xc)=Πi=1:mP(xic),其中 m m m为特征个数。
朴素贝叶斯分类的思想十分简单:通过样本估计每个特征的类条件概率(似然) P ( x i ∣ c ) P(x_i|c) P(xic),然后连乘得到 P ( x ∣ c ) P(\textbf{x}|c) P(xc);得到新的样本时,根据 P ( x ∣ c ) P(\textbf{x}|c) P(xc)估计该样本在每一个类别下的似然,选择似然最大的那个类作为该样本的判断类。

总结

梳理了一下对于贝叶斯分类的理解。后续会接着记录相关理解和问题思考。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值