概率密度与似然函数@TOC
概率密度函数(PDF: Probability Density Function)与似然函数(LF: Likelihood Function)
澄清概率密度函数(pdf)与似然函数(LF)的关系。参数估计中经常用到最大似然估计(Maximum Likelihood Estimation),其表达形式上与概率密度函数相同,但实际意义有所区别。
首先定义两个符号:
- f ( x , y ∣ θ ) f(x,y|\pmb{\theta}) f(x,y∣θθθ): 当参数为 θ \pmb{\theta} θθθ时,样本出现在 ( x , y ) (x,y) (x,y)的概率密度(pdf)
- f ( x , y ; θ ) f(x,y;\pmb{\theta}) f(x,y;θθθ): 当观测到 ( x , y ) (x,y) (x,y)这个样本时,参数 θ \pmb{\theta} θθθ的概率密度函数(LF)
概率密度函数( f ( x , y ∣ θ ) f(x,y|\pmb{\theta}) f(x,y∣θθθ))
以打靶为例。在射击之前,希望知道弹点的分布情况,即需要获得弹点
(
x
,
y
)
(x,y)
(x,y)的概率密度函数
f
(
x
,
y
)
f(x,y)
f(x,y)。值得注意的是,这里的
f
(
x
,
y
)
f(x,y)
f(x,y)并不是表示弹点落在
(
x
,
y
)
(x,y)
(x,y)的概率大小,而是弹点落在区域
Δ
\Delta
Δ的概率为
P
(
(
x
,
y
)
∈
Δ
)
=
∬
(
x
,
y
)
∈
Δ
f
(
x
,
y
)
d
x
d
y
P((x,y)\in \Delta) =\iint_{(x,y)\in \Delta} f(x,y) \text{d}x\text{d}y
P((x,y)∈Δ)=∬(x,y)∈Δf(x,y)dxdy,所以pdf值
f
(
x
,
y
)
f(x,y)
f(x,y)可能大于1。
如上图,落在8环内的概率
P
(
∣
∣
(
x
,
y
)
∣
∣
2
<
R
8
)
=
∬
∣
∣
(
x
,
y
)
∣
∣
2
<
R
8
f
(
x
,
y
)
d
x
d
y
P(||(x,y)||_2<R_8)=\iint_{||(x,y)||_2<R_8}f(x,y)\text{d}x\text{d}y
P(∣∣(x,y)∣∣2<R8)=∬∣∣(x,y)∣∣2<R8f(x,y)dxdy,其中
∣
∣
(
x
,
y
)
∣
∣
2
||(x,y)||_2
∣∣(x,y)∣∣2表示矢量
(
x
,
y
)
(x,y)
(x,y)的二范数(即欧氏距离),
R
8
R_8
R8表示8环的半径。
有时概率密度函数会由若干参数确定其形态,记为
θ
\pmb{\theta}
θθθ,以
θ
\pmb{\theta}
θθθ为参数的概率密度函数写为
f
(
x
,
y
∣
θ
)
f(x,y|\pmb{\theta})
f(x,y∣θθθ)。这里的
θ
\pmb{\theta}
θθθ是一个给定参数向量。例如打靶问题中,假设弹点服从二维正态分布,参数
θ
=
(
x
0
,
y
0
,
σ
)
\pmb{\theta} = (x_0,y_0,\sigma)
θθθ=(x0,y0,σ),其中
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)表示瞄准的中心的坐标,
σ
\sigma
σ表示打靶的正态分布的标准差(假设
x
,
y
x,y
x,y独立同分布)。pdf的表达式就是:
f
(
x
,
y
∣
x
0
,
y
0
,
σ
)
=
1
2
π
σ
2
exp
{
−
1
2
σ
2
[
(
x
−
x
0
)
2
+
(
y
−
y
0
)
2
]
}
f(x,y|x_0,y_0,\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left\{-\frac{1}{2\sigma^2}[(x-x_0)^2+(y-y_0)^2]\right\}}
f(x,y∣x0,y0,σ)=2πσ21exp{−2σ21[(x−x0)2+(y−y0)2]}
pdf的自变量是
(
x
,
y
)
(x,y)
(x,y),
θ
\pmb{\theta}
θθθ是参数集合,针对给定的概率分布,
θ
\pmb{\theta}
θθθ是常数。对pdf关于
(
x
,
y
)
(x,y)
(x,y)积分为1:
∫
x
∈
R
∫
y
∈
R
f
(
x
,
y
∣
x
0
,
y
0
,
σ
)
d
x
d
y
=
1
\int_{x\in\mathcal{R}} \int_{y\in\mathcal{R}} f(x,y|x_0,y_0,\sigma)\text{d}x\text{d}y=1
∫x∈R∫y∈Rf(x,y∣x0,y0,σ)dxdy=1
似然函数( f ( x , y ; θ ) f(x,y;\pmb{\theta}) f(x,y;θθθ))
Fisher在1922年提到过likelihood的理解:
两个二项分布的参数分别是
p
1
p_1
p1和
p
2
p_2
p2,即
p
(
ξ
=
0
)
=
p
1
,
p
(
ξ
=
0
)
=
p
2
p(\xi=0)=p_1,p(\xi=0)=p_2
p(ξ=0)=p1,p(ξ=0)=p2,我们不知道这两个参数的具体值。通过做实验,我们发现第一组实验出现0的频率是第二组实验出现0的频率的三倍,为了量化不同
p
p
p的这种属性,在不引起混淆的前提下,我们称
p
1
p_1
p1的似然度(likelihood)是
p
2
p_2
p2的似然度的三倍。值得注意的是,这里的似然度不是概率参数
p
=
p
1
p=p_1
p=p1的概率,只是简单地表示在特定参数
p
p
p下,该参数导致观测样本出现的相对频率。
例如有两个靶子,靶心分别记为
p
0
=
(
x
0
,
y
0
)
p_0=(x_0,y_0)
p0=(x0,y0)和
p
1
=
(
x
1
,
y
1
)
p_1=(x_1,y_1)
p1=(x1,y1)。我们不知道射手瞄准的是哪个靶子,只是观测到了1个弹点的坐标是
(
x
,
y
)
(x,y)
(x,y)。此时
p
(
x
,
y
∣
x
0
,
y
0
)
p(x,y|x_0,y_0)
p(x,y∣x0,y0)表示靶心是
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)条件下,出现弹点
(
x
,
y
)
(x,y)
(x,y)的概率密度,此时可以对平面上的弹点
(
x
,
y
)
(x,y)
(x,y)积分,满足
∫
x
∈
R
∫
y
∈
R
f
(
x
,
y
∣
x
0
,
y
0
)
d
x
d
y
=
1
\int_{x\in\mathcal{R}} \int_{y\in\mathcal{R}} f(x,y|x_0,y_0)\text{d}x\text{d}y=1
∫x∈R∫y∈Rf(x,y∣x0,y0)dxdy=1
p
(
x
,
y
;
x
0
,
y
0
)
p(x,y;x_0,y_0)
p(x,y;x0,y0)表示观测到
(
x
,
y
)
(x,y)
(x,y)这一现象,射手瞄准的是
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)的似然度(likelihood)。这里是似然度而不是概率,表示参数
θ
=
(
x
0
,
y
0
)
\theta=(x_0,y_0)
θ=(x0,y0)这不是随机事件,而是客观事实,我们基于随机样本去推理客观参数,存在的不确定性称之为似然度,而基于客观参数推断某个样本出现的频率大小,称之为概率。似然函数可能不满足对参数
θ
\theta
θ积分为0:
例如下图:
如图,若
θ
\theta
θ即靶心坐标只有两个取值,分别是
(
x
0
=
−
1
,
y
0
=
0
)
(x_0=-1,y_0=0)
(x0=−1,y0=0)和
(
x
0
=
1
,
y
0
=
0
)
(x_0=1,y_0=0)
(x0=1,y0=0),虽然条件概率和似然函数的表达式相同:
f
(
x
,
y
∣
x
0
,
y
0
)
=
1
2
π
σ
2
exp
{
−
1
2
σ
2
[
(
x
−
x
0
)
2
+
(
y
−
y
0
)
2
]
}
f
(
x
,
y
;
x
0
,
y
0
)
=
1
2
π
σ
2
exp
{
−
1
2
σ
2
[
(
x
−
x
0
)
2
+
(
y
−
y
0
)
2
]
}
f(x,y|x_0,y_0)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left\{-\frac{1}{2\sigma^2}[(x-x_0)^2+(y-y_0)^2]\right\}} \\ f(x,y;x_0,y_0)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left\{-\frac{1}{2\sigma^2}[(x-x_0)^2+(y-y_0)^2]\right\}}
f(x,y∣x0,y0)=2πσ21exp{−2σ21[(x−x0)2+(y−y0)2]}f(x,y;x0,y0)=2πσ21exp{−2σ21[(x−x0)2+(y−y0)2]}
但是条件概率的自变量是
x
,
y
x,y
x,y,对其积分后为1;而似然函数的自变量为
x
0
,
y
0
x_0,y_0
x0,y0,对其积分(两个取值求和)之后不一定为1。特别地,在这个例子中,如果
θ
\theta
θ的取值为
(
x
0
,
y
0
)
∈
R
2
(x_0,y_0)\in\mathcal{R}^2
(x0,y0)∈R2,似然函数的积分也为1。
引用quora上的一个回答 What is the difference between probability and likelihood
我们可以再做一个类比,假设一个函数
a
b
a^b
ab ,这个函数包含两个变量。 如果你令
b
=
2
b=2
b=2,这样你就得到了一个关于
a
a
a的二次函数,即 :
a
2
a^2
a2当你令
a
=
2
a=2
a=2时,你将得到一个关于
b
b
b的指数函数,即
2
b
2^b
2b可以看到这两个函数有着不同的名字,却源于同一个函数。而
p
(
x
∣
θ
)
p(x|θ)
p(x∣θ)也是一个有着两个变量的函数。如果,你将
θ
θ
θ设为常量,则你会得到一个概率函数(关于
x
x
x的函数);如果,你将
x
x
x设为常量你将得到似然函数(关于
θ
θ
θ的函数)。
小结
1.在很多情况下,pdf和LF的表达式相同;
2.条件概率pdf是概率测度,满足非负性、积分为1条件,LF不是概率测度,不一定满足积分为1的条件;
3.似然函数是个相对值,可以比较,但不是绝对的概率意义。例如图2中,射手目标是右侧的似然程度要大于左侧的,但两个似然度的和并不一定为1。
[1]: RA Fisher, M.A., 1922. On the mathematical foundations of theoretical statistics. Phil. Trans. R. Soc. Lond. A, 222(594-604), pp.309-368.