一、概率与频率
-
频率(Frequency):指某个事件在一定时间内发生的次数与总次数之比。用符号f表示,计算公式为:f = n / N,其中n表示事件发生的次数,N表示总次数。(统计已知事件下发生的次数)
-
概率(Probability):是指某个事件发生的可能性大小。用符号P表示,计算公式为:P = f / F,其中f表示事件发生的频率,F表示所有可能事件的频率之和。(统计未知事件下发生的次数)
区别:
- 频率是一个具体的数值,而概率是一个相对的概念。
- 频率反映的是某个事件在实际操作中发生的次数,而概率反映的是这个事件发生的可能性大小。
- 频率受到实验条件的影响,而概率是一个客观的值。
联系:
- 概率可以通过频率来计算。当实验次数足够大时,频率趋近于概率。这是因为在大量重复实验中,事件发生的频率会趋近于其真实的概率。
二、似然函数定义
似然函数(Likelihood function)是统计学中的一个重要概念,用于估计一个统计模型中的参数。给定一组观测数据,似然函数是这些数据在特定参数值下出现的概率。似然函数通常表示为
L
(
θ
∣
x
)
L(\theta|x)
L(θ∣x),其中:
- θ \theta θ是模型参数,可以是单个参数或参数向量。
- x x x 是观测数据。
似然函数的核心思想是:
- 对于给定的参数 θ \theta θ,计算观测数据 x x x 出现的概率。
- 不同的参数值 θ \theta θ会得到不同的似然值,我们通常寻找使似然值最大的参数值,这个值被称为最大似然估计(MLE)。
特点:
- 依赖于数据:似然函数是观测数据的函数,不同的数据集会得到不同的似然函数。
- 参数的函数:对于给定的数据,似然函数是参数 θ \theta θ的函数。
- 概率的度量:似然函数衡量了在给定参数下观测数据出现的概率。
三、似然和概率
我们可以认为,似然是模型的一个属性,如果用参数
θ
\theta
θ来表示这个属性,
x
x
x表示事件,则似然可以表示为:
L
(
θ
∣
x
)
L(\theta|x)
L(θ∣x)
相应地,概率可以表示为:
P
(
x
∣
θ
)
P(x|\theta)
P(x∣θ)
在使用同一个模型的情况下,概率和似然在数值上是相等的。
P
(
x
∣
θ
)
=
L
(
θ
∣
x
)
P(x|\theta)=L(\theta|x)
P(x∣θ)=L(θ∣x)
注意:虽然两者在数值上相等,但是意义并不相同,似然是关于 θ \theta θ的函数,而概率是关于 x x x的函数。
四、极大似然估计
通过给定的观察数据来估算模型参数的方法。通过若干次试验,观察其结果,利用这些试验结果得到某个参数值能够使得样本出现的概率为最大,就称为极大似然估计。极大似然估计中的样本有一个重要的原则,就是它们必须是独立同分布的。
设样本集为
D
=
{
x
1
,
x
2
,
.
.
.
,
x
N
}
D=\{x_{1},x_{2},...,x_{N}\}
D={x1,x2,...,xN}
则联合概率密度函数
P
(
D
∣
θ
)
P(D| \theta)
P(D∣θ)成为样本集D的
θ
\theta
θ的似然函数。
l
(
θ
)
=
P
(
x
1
,
x
2
,
.
.
.
,
x
N
∣
θ
)
=
∏
i
=
1
n
P
(
x
i
∣
θ
)
l(\theta)=P(x_1,x_2,...,x_N | \theta) = \prod_{i=1} ^{n}P(x_i | \theta)
l(θ)=P(x1,x2,...,xN∣θ)=i=1∏nP(xi∣θ)
如果 θ ^ \widehat\theta θ 是参数空间中是似然函数 l ( θ ) l(\theta) l(θ) 取得最大值的 θ \theta θ,则 θ ^ \widehat\theta θ 应该是最可能的值,所以它就是参数 θ \theta θ的极大似然估计量。
样本集不同,则
θ
^
\widehat\theta
θ
的值也会不同,所以
θ
^
\widehat\theta
θ
是样本集的函数,记作:
θ
^
=
d
(
x
1
,
x
2
,
.
.
.
,
x
N
)
=
d
(
D
)
\widehat\theta=d(x_1,x_2,...,x_N)=d(D)
θ
=d(x1,x2,...,xN)=d(D)
五、极大似然估计量的计算
定义了似然函数
l
(
θ
)
l(\theta)
l(θ) 之后,如果我们能够算出使似然函数取得最大值的参数
θ
\theta
θ,则我们就计算出了似然的值
θ
^
\widehat\theta
θ
,也就是参数
θ
\theta
θ 的极大似然估计量,即:
θ
^
=
arg
θ
max
l
(
θ
)
=
arg
θ
max
∏
i
=
1
n
P
(
x
i
∣
θ
)
\widehat\theta=\arg_\theta \max l(\theta)=\arg_\theta \max \prod_{i=1} ^{n}P(x_i | \theta)
θ
=argθmaxl(θ)=argθmaxi=1∏nP(xi∣θ)
由于多个函数的乘积很难计算,实践中为了便于分析和计算,定义了对数自然函数:
H ( θ ) = I n ( l ( θ ) ) H(\theta)=In(l(\theta)) H(θ)=In(l(θ))
由于一个数与它的对数之间具有相同的单调性,所以求对数似然函数的最大值,也可以计算出极大似然估计量。也就是:
θ
^
=
arg
θ
max
H
(
θ
)
=
arg
θ
max
∑
i
=
1
N
I
n
(
P
(
x
i
∣
θ
)
)
\widehat\theta=\arg_\theta \max H(\theta)=\arg_\theta \max \sum_{i=1}^N In(P(x_i | \theta))
θ
=argθmaxH(θ)=argθmaxi=1∑NIn(P(xi∣θ))
未知参数只有一个( θ \theta θ是标量):
在似然函数连续可微的条件下,极大似然估计量是下面方程的解:
d
H
(
θ
)
d
θ
=
d
I
n
(
l
(
θ
)
)
d
θ
\frac{dH(\theta)}{d\theta}=\frac{dIn(l(\theta))}{d\theta}
dθdH(θ)=dθdIn(l(θ))
未知参数有多个( θ \theta θ是向量)
设
θ
\theta
θ可表示为具有
S
S
S个分量的向量:
θ
=
[
θ
1
,
θ
2
,
.
.
.
,
θ
S
]
T
\theta=[\theta_1,\theta_2,...,\theta_S]^T
θ=[θ1,θ2,...,θS]T
记梯度算子: ∇ θ = [ ∂ ∂ θ 1 , ∂ ∂ θ 2 , … , ∂ ∂ θ S ] T \nabla_\theta=\left[\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2},\dots,\frac{\partial}{\partial\theta_S}\right]^T ∇θ=[∂θ1∂,∂θ2∂,…,∂θS∂]T
则在似然函数连续可微的条件下,极大似然估计量是下面方程的解:
∇
θ
H
(
θ
)
=
∇
θ
I
n
(
l
(
θ
)
)
=
∑
i
=
1
N
I
n
(
P
(
x
i
∣
θ
)
)
\nabla_\theta H(\theta)=\nabla_\theta In(l(\theta)) = \sum_{i=1}^N In(P(x_i | \theta))
∇θH(θ)=∇θIn(l(θ))=i=1∑NIn(P(xi∣θ))
注意:
在特定的数据集下,用上述方法计算出来的只是极大似然估计量的一个估计值,只有当数据集中样本数量趋于无限大时,这个估计值才能最接近真实值。
六、简单示例(估计硬币抛掷正面朝上的概率)
假设我们抛掷一枚硬币若干次,每次抛掷正面朝上的概率为
p
p
p,反面朝上的概率为
1
−
p
1−p
1−p。我们想要估计
p
p
p 的值。假设我们进行了
n
n
n 次独立的抛掷,其中
k
k
k 次正面朝上。
步骤:
1.写出似然函数:对于二项分布,似然函数 L ( p ) L(p) L(p) 是所有成功(正面朝上)的概率和所有失败(反面朝上)的概率的乘积:
L ( p ) = p k ( 1 − p ) n − k L(p)=p^k(1-p)^{n-k} L(p)=pk(1−p)n−k
2. 取对数:为简化计算,取对数似然函数,令
l
(
p
)
=
I
n
(
L
(
p
)
)
l(p)=In(L(p))
l(p)=In(L(p))
l
(
p
)
=
I
n
(
p
k
(
1
−
p
)
n
−
k
)
l
(
p
)
=
I
n
(
p
k
)
+
I
n
(
1
−
p
)
n
−
k
l(p)=In(p^k(1-p)^{n-k} ) \\ l(p)=In(p^k) + In(1-p)^{n-k}
l(p)=In(pk(1−p)n−k)l(p)=In(pk)+In(1−p)n−k
3. 求解导数:
d
l
(
p
)
d
p
=
k
p
−
n
−
k
1
−
p
\frac{dl(p) }{dp}=\frac{k}{p} - \frac{n-k}{1-p}
dpdl(p)=pk−1−pn−k
4. 解导数等于0:将导数等于0,解得
p
p
p
k
(
1
−
p
)
=
k
−
k
p
=
(
n
−
k
)
p
k
p
+
p
(
n
−
k
)
=
k
p
(
n
)
=
k
p
=
k
n
\begin{array}{l} k(1−p)=k−kp=(n−k)p \\ kp+p(n−k)=k \\ p(n)=k \\ p= \frac{k}{n} \end{array}
k(1−p)=k−kp=(n−k)pkp+p(n−k)=kp(n)=kp=nk
得到的
p
p
p 的最大似然估计值是
p
=
k
n
p= \frac{k}{n}
p=nk,即正面朝上次数与总抛掷次数的比率。
这个例子中,最大似然估计给出的硬币正面朝上的概率
p
p
p的估计值是观察到的正面朝上次数
k
k
k除以总抛掷次数
n
n
n。这是一个简单直观的例子,展示了MLE在实际问题中的应用。