一个样本的似然、一组同类样本的似然、整个数据集上的似然
对数似然(对数边际似然):通过求期望(求和或求积分)来减少概率中的变量称为边际化。
再谈极大似然
回顾极大似然估计MLE,我们先讨论关键概念“似然”。
(1)当关注分类时,参数视为与类别标识直接相关的,即 Θ c {\Theta}_c Θc,这时为7.3 极大似然法篇的内容,即
- 一个样本的似然: P ( x ∣ c ) P(\boldsymbol{x}\,|\,c ) P(x∣c),更一般为: P ( x ∣ Θ c ) P(\boldsymbol{x}\,|\,{\Theta}_c ) P(x∣Θc),可依属性进行分解,如,朴素贝叶斯和半朴素贝叶斯假设。
- 一组同类样本的似然:数据集 D D D的 c c c类构成子集 D c D_c Dc,则该子集的似然为 P ( D c ∣ Θ c ) P(D_c\,|\,{\Theta}_c ) P(Dc∣Θc),可依样本进行分解,得【西瓜书式(7.9)】。
(2)当并不是关注分类(如,无监督学习)时,上述参数中的下标
c
c
c即可去掉,特别地,这时可以在整个数据集
D
D
D上(
D
D
D中可以含有重复的样本)考察“似然”
P
(
D
∣
Θ
)
=
∏
x
∈
D
P
(
x
∣
Θ
)
\begin{align} P(D\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in D}P(\boldsymbol{x}\,|\,\Theta) \tag{7.50} \end{align}
P(D∣Θ)=x∈D∏P(x∣Θ)(7.50)
其中,
D
=
{
x
i
}
i
=
1
m
D=\{\boldsymbol{x}_i\}_{i=1}^m
D={xi}i=1m。
似然分解成积后,易想到用对数来进行运算处理,这就是“对数似然”。
类似于上节中将 x \boldsymbol{x} x分解为证据变量集 E \boldsymbol{E} E和待查询变量集 Q \boldsymbol{Q} Q,这里改一下名称:设 x = ( E , Q ) \boldsymbol{x}=(\boldsymbol{E},\boldsymbol{Q}) x=(E,Q),其中, E \boldsymbol{E} E是观测变量集,而 Q \boldsymbol{Q} Q是未观测变量集(未观测变量称为“隐变量”)。
将
D
D
D视为一个矩阵(称为设计矩阵):每行为一个样本,每列为一个属性,则该矩阵大小为
m
×
d
m\times d
m×d。 现在将矩阵
D
D
D依观测变量集
E
\boldsymbol{E}
E和未观测变量集
Q
\boldsymbol{Q}
Q分裂成左右两个子矩阵,即
D
=
(
X
,
Z
)
D=(\mathbf{X},\mathbf{Z})
D=(X,Z),则式(7.50)变为
P
(
X
,
Z
∣
Θ
)
=
∏
x
∈
(
X
,
Z
)
P
(
x
∣
Θ
)
\begin{align} P(\mathbf{X},\mathbf{Z}\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta) \tag{7.51} \end{align}
P(X,Z∣Θ)=x∈(X,Z)∏P(x∣Θ)(7.51)
其中,
x
∈
(
X
,
Z
)
\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})
x∈(X,Z)表示
x
\boldsymbol{x}
x是矩阵
(
X
,
Z
)
(\mathbf{X},\mathbf{Z})
(X,Z)的一行。
使用对数似然公式,则式(7.51)变为
L
L
(
Θ
∣
X
,
Z
)
=
ln
P
(
X
,
Z
∣
Θ
)
=
ln
∏
x
∈
(
X
,
Z
)
P
(
x
∣
Θ
)
=
∑
x
∈
(
X
,
Z
)
ln
P
(
x
∣
Θ
)
\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta )\tag{7.52} \\ & =\ln \mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta)\notag \\ & =\sum_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}\ln P(\boldsymbol{x}\,|\,\Theta) \tag{7.53} \end{align}
LL(Θ∣X,Z)=lnP(X,Z∣Θ)=lnx∈(X,Z)∏P(x∣Θ)=x∈(X,Z)∑lnP(x∣Θ)(7.52)(7.53)
我们知道,对变量求期望可以消去该变量,如,消去隐变量
E
Z
P
(
X
,
Z
∣
Θ
)
=
P
(
X
∣
Θ
)
\begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) & =P(\mathbf{X}\,|\,\Theta) \tag{7.54} \end{align}
ZEP(X,Z∣Θ)=P(X∣Θ)(7.54)
由此,我们得到已观测数据
X
\mathbf{X}
X的对数似然(对数边际似然)。注:通过求期望(求和或求积分)来减少概率中的变量称为边际化。
L
L
(
Θ
∣
X
)
=
ln
P
(
X
∣
Θ
)
=
ln
E
Z
P
(
X
,
Z
∣
Θ
)
\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,\Theta)\tag{7.55} \\ & =\ln \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) %&=\ln \mathop{\sum}\limits_{\mathbf{Z}} P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.56} \end{align}
LL(Θ∣X)=lnP(X∣Θ)=lnZEP(X,Z∣Θ)(7.55)(7.56)
将
E
\mathbb{E}
E改为离散的
∑
\sum
∑即为【西瓜书式(7.35)】。
极大似然的朴素观念:事件既然发生了,我就“猜”它是概率最大时发生的。 “事件发生”是指产生了已有的数据集,在有隐变量时,已有的数据集就是“证据” X \mathbf{X} X,极大(对数)似然法这时应考虑的是“证据” X \mathbf{X} X已发生,即采用极大(对数)边际似然,式(7.56)即
Θ ∗ = arg max Θ L L ( Θ ∣ X ) \begin{align} {\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X}) \tag{7.57} \end{align} Θ∗=ΘargmaxLL(Θ∣X)(7.57)
然而,式(7.56)中,
ln
\ln
ln由于隔着
E
Z
\mathop{\mathbb{E}}\limits_{\mathbf{Z}}
ZE(如
∑
\sum
∑)不能作用于
P
(
X
,
Z
∣
Θ
)
P(\mathbf{X},\mathbf{Z}\,|\,\Theta)
P(X,Z∣Θ)的分解式,故直接用式(7.57)碰到了困难,这就导致了对“强制”交换后的式子
E
Z
ln
P
(
X
,
Z
∣
Θ
)
\begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, \ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.58} \end{align}
ZElnP(X,Z∣Θ)(7.58)
的研究,从而产生了EM算法。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:7.7 贝叶斯网络分类器(分类可视为一种特殊的查询)、贝叶斯网络推断(查询一组结点称为“推断”)
下一篇:7.9 EM原理的详细数学推导