(《机器学习》完整版系列)第7章 贝叶斯分类器——7.8 再谈极大似然(对数边际似然)

一个样本的似然、一组同类样本的似然、整个数据集上的似然
对数似然(对数边际似然):通过求期望(求和或求积分)来减少概率中的变量称为边际化。

再谈极大似然

回顾极大似然估计MLE,我们先讨论关键概念“似然”。

(1)当关注分类时,参数视为与类别标识直接相关的,即 Θ c {\Theta}_c Θc,这时为7.3 极大似然法篇的内容,即

  • 一个样本的似然: P ( x   ∣   c ) P(\boldsymbol{x}\,|\,c ) P(xc),更一般为: P ( x   ∣   Θ c ) P(\boldsymbol{x}\,|\,{\Theta}_c ) P(xΘc),可依属性进行分解,如,朴素贝叶斯和半朴素贝叶斯假设。
  • 一组同类样本的似然:数据集 D D D c c c类构成子集 D c D_c Dc,则该子集的似然为 P ( D c   ∣   Θ c ) P(D_c\,|\,{\Theta}_c ) P(DcΘc),可依样本进行分解,得【西瓜书式(7.9)】。

(2)当并不是关注分类(如,无监督学习)时,上述参数中的下标 c c c即可去掉,特别地,这时可以在整个数据集 D D D上( D D D中可以含有重复的样本)考察“似然”
P ( D   ∣   Θ ) = ∏ x ∈ D P ( x   ∣   Θ ) \begin{align} P(D\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in D}P(\boldsymbol{x}\,|\,\Theta) \tag{7.50} \end{align} P(DΘ)=xDP(xΘ)(7.50)
其中, D = { x i } i = 1 m D=\{\boldsymbol{x}_i\}_{i=1}^m D={xi}i=1m

似然分解成积后,易想到用对数来进行运算处理,这就是“对数似然”。

类似于上节中将 x \boldsymbol{x} x分解为证据变量集 E \boldsymbol{E} E和待查询变量集 Q \boldsymbol{Q} Q,这里改一下名称:设 x = ( E , Q ) \boldsymbol{x}=(\boldsymbol{E},\boldsymbol{Q}) x=(E,Q),其中, E \boldsymbol{E} E是观测变量集,而 Q \boldsymbol{Q} Q是未观测变量集(未观测变量称为“隐变量”)。

D D D视为一个矩阵(称为设计矩阵):每行为一个样本,每列为一个属性,则该矩阵大小为 m × d m\times d m×d。 现在将矩阵 D D D依观测变量集 E \boldsymbol{E} E和未观测变量集 Q \boldsymbol{Q} Q分裂成左右两个子矩阵,即 D = ( X , Z ) D=(\mathbf{X},\mathbf{Z}) D=(X,Z),则式(7.50)变为
P ( X , Z   ∣   Θ ) = ∏ x ∈ ( X , Z ) P ( x   ∣   Θ ) \begin{align} P(\mathbf{X},\mathbf{Z}\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta) \tag{7.51} \end{align} P(X,ZΘ)=x(X,Z)P(xΘ)(7.51)
其中, x ∈ ( X , Z ) \boldsymbol{x} \in (\mathbf{X},\mathbf{Z}) x(X,Z)表示 x \boldsymbol{x} x是矩阵 ( X , Z ) (\mathbf{X},\mathbf{Z}) (X,Z)的一行。

使用对数似然公式,则式(7.51)变为
L L ( Θ   ∣   X , Z ) = ln ⁡ P ( X , Z   ∣   Θ ) = ln ⁡ ∏ x ∈ ( X , Z ) P ( x   ∣   Θ ) = ∑ x ∈ ( X , Z ) ln ⁡ P ( x   ∣   Θ ) \begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta )\tag{7.52} \\ & =\ln \mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta)\notag \\ & =\sum_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}\ln P(\boldsymbol{x}\,|\,\Theta) \tag{7.53} \end{align} LL(ΘX,Z)=lnP(X,ZΘ)=lnx(X,Z)P(xΘ)=x(X,Z)lnP(xΘ)(7.52)(7.53)

我们知道,对变量求期望可以消去该变量,如,消去隐变量
E Z   P ( X , Z   ∣   Θ ) = P ( X   ∣   Θ ) \begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) & =P(\mathbf{X}\,|\,\Theta) \tag{7.54} \end{align} ZEP(X,ZΘ)=P(XΘ)(7.54)

由此,我们得到已观测数据 X \mathbf{X} X的对数似然(对数边际似然)。注:通过求期望(求和或求积分)来减少概率中的变量称为边际化。
L L ( Θ   ∣   X ) = ln ⁡ P ( X   ∣   Θ ) = ln ⁡ E Z   P ( X , Z   ∣   Θ ) \begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,\Theta)\tag{7.55} \\ & =\ln \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) %&=\ln \mathop{\sum}\limits_{\mathbf{Z}} P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.56} \end{align} LL(ΘX)=lnP(XΘ)=lnZEP(X,ZΘ)(7.55)(7.56)
E \mathbb{E} E改为离散的 ∑ \sum 即为【西瓜书式(7.35)】。

极大似然的朴素观念:事件既然发生了,我就“猜”它是概率最大时发生的。 “事件发生”是指产生了已有的数据集,在有隐变量时,已有的数据集就是“证据” X \mathbf{X} X,极大(对数)似然法这时应考虑的是“证据” X \mathbf{X} X已发生,即采用极大(对数)边际似然,式(7.56)即

Θ ∗ = arg ⁡ max ⁡ Θ L L ( Θ   ∣   X ) \begin{align} {\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X}) \tag{7.57} \end{align} Θ=ΘargmaxLL(ΘX)(7.57)

然而,式(7.56)中, ln ⁡ \ln ln由于隔着 E Z \mathop{\mathbb{E}}\limits_{\mathbf{Z}} ZE(如 ∑ \sum )不能作用于 P ( X , Z   ∣   Θ ) P(\mathbf{X},\mathbf{Z}\,|\,\Theta) P(X,ZΘ)的分解式,故直接用式(7.57)碰到了困难,这就导致了对“强制”交换后的式子
E Z   ln ⁡ P ( X , Z   ∣   Θ ) \begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, \ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.58} \end{align} ZElnP(X,ZΘ)(7.58)
的研究,从而产生了EM算法。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:7.7 贝叶斯网络分类器(分类可视为一种特殊的查询)、贝叶斯网络推断(查询一组结点称为“推断”)
下一篇:7.9 EM原理的详细数学推导

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值