(《机器学习》完整版系列)第7章 贝叶斯分类器——7.3 极大似然法(似然是什么:类条件概率)

文章详细阐述了基于最小化分类错误率的贝叶斯最优分类器的求解过程,涉及到极大似然估计和贝叶斯决策理论。首先,通过极大似然法估计每个类别参数,然后计算似然概率和后验概率,最后依据后验概率的最大值进行分类。整个过程突显了在分类问题中,先验知识、似然函数和后验概率的重要性。
摘要由CSDN通过智能技术生成

基于最小化分类错误率的贝叶斯最优分类器的求解中,两次使用了 max ⁡ \max max,一次是极大似然法【西瓜书式(7.11)】,另一次是贝叶斯决策【西瓜书式(7.6)】,其意义各不相同。

极大似然法

7.1 贝叶斯决策论知,最小化分类错误率的贝叶斯最优分类器为
h ∗ ( x ) = arg ⁡ min ⁡ c ∈ Y ( 1 − P ( c   ∣   x ) ) = arg ⁡ max ⁡ c ∈ Y P ( c   ∣   x ) = arg ⁡ max ⁡ c i , ( i = 1 , 2 , ⋯   , N ) P ( c i   ∣   x ) \begin{align} h^*(\boldsymbol{x}) & =\mathop{\arg\min}\limits_{c\in \mathcal{Y}}(1-P(c\,|\,\boldsymbol{x}))\notag \\ & =\mathop{\arg\max}\limits_{c\in \mathcal{Y}}P(c\,|\,\boldsymbol{x})\notag \\ & =\mathop{\arg\max}\limits_{c_i,(i=1,2,\cdots,N)}P(c_i\,|\,\boldsymbol{x}) \tag{7.13} \end{align} h(x)=cYargmin(1P(cx))=cYargmaxP(cx)=ci,(i=1,2,,N)argmaxP(cix)(7.13)

通过如下式(7.17)
P ( c   ∣   x ) = P ( c ) P ( x   ∣   c ) P ( x ) \begin{align} P(c\,|\,\boldsymbol{x})=\frac{P(c)P(\boldsymbol{x}\,|\,c)}{P(\boldsymbol{x})} \tag{7.17} \end{align} P(cx)=P(x)P(c)P(xc)(7.17)

后验 = 先验 ⋅ 似然 证据 \begin{align} \text{后验}=\frac{\text{先验}\cdot\text{似然}}{\text{证据}} \tag{7.17a} \end{align} 后验=证据先验似然(7.17a)
来求式(7.13)时,通常“先验”和“证据”已定,问题归结于求极大“似然”( P ( x   ∣   c ) P(\boldsymbol{x}\,|\,c) P(xc))。

先将“似然”参数化,即指定它具有某种形式 f f f(由领域知识得到)并含有某待定参数 θ c {\theta}_c θc,即
P ( x   ∣   c ) = f ( x , θ c ) \begin{align} P(\boldsymbol{x}\,|\,c)=f(\boldsymbol{x},{\theta}_c ) \tag{7.24} \end{align} P(xc)=f(x,θc)(7.24)
式(7.24)中,标记变量 c c c与参数变量 θ c {\theta}_c θc是对应的,故该条件概率可以换一种写法:
P ( x   ∣   c ) = P ( x   ∣   θ c ) \begin{align} P(\boldsymbol{x}\,|\,c)=P(\boldsymbol{x}\,|\,{\theta}_c) \tag{7.25} \end{align} P(xc)=P(xθc)(7.25)

设数据集 D D D中的 c c c类样本构成子集 D c = { x 1 c , x 2 c , ⋯   , x k c } D_c=\{\boldsymbol{x}_1^c,\boldsymbol{x}_2^c,\cdots,\boldsymbol{x}_k^c\} Dc={x1c,x2c,,xkc},则
P ( D c   ∣   θ c ) = P ( ( x 1 c , x 2 c , ⋯   , x k c )   ∣   θ c ) = P ( x 1 c   ∣   θ c ) ⋅ P ( x 2 c   ∣   θ c ) ⋅ ⋯ P ( x k c   ∣   θ c ) = ∏ x ∈ D c P ( x   ∣   θ c ) \begin{align} P(D_c\,|\,{\theta}_c) & =P((\boldsymbol{x}_1^c,\boldsymbol{x}_2^c,\cdots,\boldsymbol{x}_k^c)\,|\,{\theta}_c)\notag \\ & =P(\boldsymbol{x}_1^c\,|\,{\theta}_c)\cdot P(\boldsymbol{x}_2^c\,|\,{\theta}_c)\cdot\cdots P(\boldsymbol{x}_k^c\,|\,{\theta}_c)\notag \\ & =\mathop{\prod }\limits_{\boldsymbol{x} \in D_c}P(\boldsymbol{x}\,|\,{\theta}_c) \tag{7.26} \end{align} P(Dcθc)=P((x1c,x2c,,xkc)θc)=P(x1cθc)P(x2cθc)P(xkcθc)=xDcP(xθc)(7.26)
取对数将 ∏ \prod 变为 ∑ \sum ,即得到【西瓜书式(7.10)】,其中,“ L L ( θ c ) \mathrm{LL}({\theta}_c) LL(θc)”的“双 L L L”是指log -likelihood(对数似然)。

注意:极大(对数)似然的估计是与类 c c c相关的,即参数是带下标的,这就是说每个类都有其参数,极大似然对这些参数逐一估计, θ c {\theta}_c θc的估计为 θ ^ c \hat{\theta}_c θ^c

综上,得到基于最小化分类错误率的贝叶斯最优分类器的求解步骤:

(1)对每个类别 c c c子集 D c D_c Dc,利用极大似然法(MLE):式(7.26)、【西瓜书式(7.10)】、【西瓜书式(7.11)】估计出参数 θ ^ c \hat{\theta}_c θ^c

(2)代入式(7.24),求得似然概率 P ( x   ∣   c ) P(\boldsymbol{x}\,|\,c) P(xc)

(3)代入式(7.17),求得后验概率 P ( c   ∣   x ) P(c\,|\,\boldsymbol{x}) P(cx)

(4)各类别的 P ( c i   ∣   x ) , i = 1 , 2 , ⋯   , N P(c_i\,|\,\boldsymbol{x}),i=1,2,\cdots,N P(cix),i=1,2,,N代入【西瓜书式(7.6)】(即用式(7.13)进行后验概率比较,取最大的)即得到 h ∗ ( x ) h^*(\boldsymbol{x}) h(x)

从这个步骤中可以看出,它使用了两次 max ⁡ \max max,一次是极大似然法【西瓜书式(7.11)】,另一次是贝叶斯决策【西瓜书式(7.6)】,其意义各不相同。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:7.2 再谈线性判别分析(高斯分布下的线性判别分析LDA实现了贝叶斯分类器)
下一篇:7.4 朴素贝叶斯分类器与半朴素贝叶斯分类器(样本独立?属性独立?类条件属性独立?)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值