不知道读者您有没有这样的感觉,有些很简单的东西,如果自己没有花心思去学,也会感觉很难,正所谓会者不难,难者不会。
概率和似然,尤其是似然,把自己搞的是云里雾里,虽然自己学了《概率论与数理统计》,但是由于长时间没有用,已经忘的差不多了。
如果你也对似然有疑问或者不理解,那么别犹豫了,往下读便是了。
老规矩,先来符号约定。
符号约定:
N N N表示样本数。
p p p表示样本的维度,也叫特征数。
θ \boldsymbol{\theta} θ表示参数向量。
X \boldsymbol{X} X表示样本矩阵。
P P P表示概率符号。
似然与概率
在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。
-
概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性。 比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果便是确定的。
-
而似然刚好相反,是在确定的结果下去推测产生这个结果的可能环境(参数)。 还是抛硬币的例子,假设我们随机抛掷一枚硬币1,000次,结果500次人头朝上,500次数字朝上(实际情况一般不会这么理想,这里只是举个例子),我们很容易判断这是一枚标准的硬币,两面朝上的概率均为50%,这个过程就是我们运用出现的结果来判断这个事情本身的性质(参数),也就是似然。
通俗一点来说,似然是什么?
给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。这时候的问题便是似然了。
似然的数学表达
结果和参数相互对应的时候,似然和概率在数值上是相等的,如果用
θ
\boldsymbol{\theta}
θ 表示环境对应的参数,
X
\boldsymbol{X}
X 表示结果,那么概率可以表示为:
P
(
X
∣
θ
)
P(\boldsymbol{X}|\boldsymbol{\theta})
P(X∣θ)
P
(
X
∣
θ
)
P(\boldsymbol{X}|\boldsymbol{\theta})
P(X∣θ)是条件概率的表示方法,
θ
\boldsymbol{\theta}
θ 是前置条件,理解为在
θ
\boldsymbol{\theta}
θ 的前提下,事件
X
\boldsymbol{X}
X 发生的概率,相对应的似然可以表示为:
L
(
θ
∣
X
)
\mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X})
L(θ∣X)
可以理解为已知结果为
X
\boldsymbol{X}
X ,参数为
θ
\boldsymbol{\theta}
θ (似然函数里
θ
\boldsymbol{\theta}
θ 是变量,这里说的参数和变量是相对与概率而言的)对应的概率,即:
L
(
θ
∣
X
)
=
P
(
X
∣
θ
)
\mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X})=P(\boldsymbol{X}|\boldsymbol{\theta})
L(θ∣X)=P(X∣θ)
需要说明的是两者在数值上相等,但是意义并不相同,
L
\mathcal{L}
L是关于
θ
\boldsymbol{\theta}
θ的函数,而
P
P
P 则是关于
X
\boldsymbol{X}
X 的函数,两者从不同的角度描述一件事情。
从符号上区分似然和概率
似然的符号一般是用 L \mathcal{L} L来表示,例如 L ( θ ∣ X ) \mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X}) L(θ∣X)。
而概率的符号一般是用 P P P来表示,例如 P ( X ∣ θ ) P(\boldsymbol{X}|\boldsymbol{\theta}) P(X∣θ)。
必须指出的是,虽然似然一般用 L \mathcal{L} L来表示,但是却能间接使用概率来计算,这也便是上面的公式 L ( θ ∣ X ) = P ( X ∣ θ ) \mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X})=P(\boldsymbol{X}|\boldsymbol{\theta}) L(θ∣X)=P(X∣θ)了。
最大似然估计(MLE,Maximum Likelihood Estimation)
最大似然估计是似然函数最初也是最自然的应用。似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发,最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在。
最大似然估计和最大后验估计有一定的相似的地方,对比着学,会有利于学习。
最大似然估计的形式是
arg
max
θ
L
(
θ
∣
X
)
=
arg
max
θ
P
(
X
∣
θ
)
=
arg
max
θ
P
(
X
1
∣
θ
)
P
(
X
2
∣
θ
)
⋯
P
(
X
N
∣
θ
)
=
arg
max
θ
∏
i
=
1
N
P
(
X
i
∣
θ
)
\begin{aligned} \mathop{\arg\max}\limits_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X})&=\mathop{\arg\max}\limits_{\boldsymbol{\theta}} P(\boldsymbol{X}|\boldsymbol{\theta}) \\ &=\mathop{\arg\max}\limits_{\boldsymbol{\theta}} P(\boldsymbol{X_1}|\boldsymbol{\theta}) P(\boldsymbol{X_2}|\boldsymbol{\theta}) \cdots P(\boldsymbol{X_N}|\boldsymbol{\theta}) \\ &=\mathop{\arg\max}\limits_{\boldsymbol{\theta}} \prod_{i=1}^{N} P(\boldsymbol{X_i}|\boldsymbol{\theta}) \end{aligned}
θargmaxL(θ∣X)=θargmaxP(X∣θ)=θargmaxP(X1∣θ)P(X2∣θ)⋯P(XN∣θ)=θargmaxi=1∏NP(Xi∣θ)
最大后验估计(MAP,Maximum A Posteriori Estimation)
首先看一下后验概率的公式,根据贝叶斯公式有
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
P
(
X
)
\begin{aligned} P(\boldsymbol{\theta}|\boldsymbol{X})=\frac{P(\boldsymbol{X}|\boldsymbol{\theta})P(\boldsymbol{\theta})}{P(\boldsymbol{X})} \end{aligned}
P(θ∣X)=P(X)P(X∣θ)P(θ)
其中的
P
(
θ
∣
X
)
P(\boldsymbol{\theta}|\boldsymbol{X})
P(θ∣X)表示后验概率,分子上的
P
(
X
∣
θ
)
P(\boldsymbol{X}|\boldsymbol{\theta})
P(X∣θ)便是上面的似然,即似然
L
(
θ
∣
X
)
\mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X})
L(θ∣X),分子上的
P
(
θ
)
P(\boldsymbol{\theta})
P(θ)是先验概率,分母则是积分,在进行最大后验估计的时候,会把分母省略,只对分子部分求最大,如下面
arg
max
θ
P
(
θ
∣
X
)
=
arg
max
θ
P
(
X
∣
θ
)
P
(
θ
)
\begin{aligned} \mathop{\arg\max}\limits_{\boldsymbol{\theta}} P(\boldsymbol{\theta}|\boldsymbol{X})&=\mathop{\arg\max}\limits_{\boldsymbol{\theta}} P(\boldsymbol{X}|\boldsymbol{\theta})P(\boldsymbol{\theta}) \end{aligned}
θargmaxP(θ∣X)=θargmaxP(X∣θ)P(θ)
优化的目标变为了
P
(
θ
∣
X
)
P(\boldsymbol{\theta}|\boldsymbol{X})
P(θ∣X),即给定了观测值
X
\boldsymbol{X}
X以后使模型参数
θ
\boldsymbol{\theta}
θ出现的概率最大。
相比最大似然估计方法,最大后验概率考虑了参数 θ \boldsymbol{\theta} θ的先验概率 P ( θ ) P(\boldsymbol{\theta}) P(θ)。 即就算似然概率 P ( X ∣ θ ) P(\boldsymbol{X}|\boldsymbol{\theta}) P(X∣θ)很大,但是如果参数 θ \boldsymbol{\theta} θ出现的概率小,也更倾向于不考虑模型参数为 θ \boldsymbol{\theta} θ。这是二者区别的地方。
理解似然的技巧
不知道有没有细心的读者发现了,似然和后验概率在表示上有类似的地方,似然是用的符号 L \mathcal{L} L,而后验概率使用的是符号 P P P。我把二者放在一起,你细品一下。
似然: L ( θ ∣ X ) \mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X}) L(θ∣X)
后验概率: P ( θ ∣ X ) P(\boldsymbol{\theta}|\boldsymbol{X}) P(θ∣X)
但是计算似然的时候,是使用的下面的公式,你再细品一下。
L ( θ ∣ X ) = P ( X ∣ θ ) \mathcal{L}(\boldsymbol{\theta}|\boldsymbol{X})=P(\boldsymbol{X}|\boldsymbol{\theta}) L(θ∣X)=P(X∣θ)
通过以上的对比,相信读者能更好的学会似然和概率。