伯努利分布的极大似然估计一个示例,详细展开的方程求解步骤

此示例是 什么是极大似然估计 中的一个例子,本文的目的是给出更加详细的方程求解步骤,便于数学基础不好的同学理解。

回顾问题

我们在使用伯努利分布的极大似然估计时,目标是找到参数 p p p,使得观测数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn 出现的概率最大。每个 x i x_i xi 可能是 0 或 1,因此可以使用伯努利分布来描述。

  • 伯努利分布的概率质量函数为:
    P ( X = x i ∣ p ) = p x i ( 1 − p ) 1 − x i P(X = x_i | p) = p^{x_i} (1 - p)^{1 - x_i} P(X=xip)=pxi(1p)1xi

    其中 p p p X X X 取值为 1 的概率。

  • 似然函数(Likelihood Function)为:
    L ( p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i L(p) = \prod_{i=1}^n p^{x_i} (1 - p)^{1 - x_i} L(p)=i=1npxi(1p)1xi

    这个公式表示,在给定参数 p p p 的条件下,观测数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn 出现的联合概率。

对数似然函数

为了简化计算,我们通常将似然函数取对数,得到对数似然函数(Log-likelihood Function)。取对数后,可以将乘积变成求和,简化导数的计算。对数似然函数为:
ℓ ( p ) = log ⁡ L ( p ) = ∑ i = 1 n log ⁡ ( p x i ( 1 − p ) 1 − x i ) \ell(p) = \log L(p) = \sum_{i=1}^n \log \left( p^{x_i} (1 - p)^{1 - x_i} \right) (p)=logL(p)=i=1nlog(pxi(1p)1xi)

可以进一步展开为:
ℓ ( p ) = ∑ i = 1 n ( x i log ⁡ p + ( 1 − x i ) log ⁡ ( 1 − p ) ) \ell(p) = \sum_{i=1}^n \left( x_i \log p + (1 - x_i) \log (1 - p) \right) (p)=i=1n(xilogp+(1xi)log(1p))

这是我们要最大化的对数似然函数。

求导并令导数为 0

为了找到最大似然估计值,我们需要对 p p p 求导,并找到使导数为 0 的 p p p

ℓ ( p ) \ell(p) (p) 求导:
d ℓ ( p ) d p = ∑ i = 1 n ( x i p − 1 − x i 1 − p ) \frac{d\ell(p)}{dp} = \sum_{i=1}^n \left( \frac{x_i}{p} - \frac{1 - x_i}{1 - p} \right) dpd(p)=i=1n(pxi1p1xi)

把求和符号展开为两部分:
d ℓ ( p ) d p = ∑ i = 1 n x i p − ∑ i = 1 n ( 1 − x i ) 1 − p \frac{d\ell(p)}{dp} = \frac{\sum_{i=1}^n x_i}{p} - \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} dpd(p)=pi=1nxi1pi=1n(1xi)

接下来我们令导数等于 0,以找到最大化的 p p p
∑ i = 1 n x i p − ∑ i = 1 n ( 1 − x i ) 1 − p = 0 \frac{\sum_{i=1}^n x_i}{p} - \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} = 0 pi=1nxi1pi=1n(1xi)=0

解方程

我们通过这个方程来解 p p p

  1. 先将 ∑ i = 1 n x i p \frac{\sum_{i=1}^n x_i}{p} pi=1nxi 移到等式的右边:
    ∑ i = 1 n ( 1 − x i ) 1 − p = ∑ i = 1 n x i p \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} = \frac{\sum_{i=1}^n x_i}{p} 1pi=1n(1xi)=pi=1nxi

  2. 接着交叉相乘:
    ( ∑ i = 1 n ( 1 − x i ) ) p = ( ∑ i = 1 n x i ) ( 1 − p ) \left( \sum_{i=1}^n (1 - x_i) \right) p = \left( \sum_{i=1}^n x_i \right) (1 - p) (i=1n(1xi))p=(i=1nxi)(1p)

  3. 展开并整理方程:
    ( ∑ i = 1 n ( 1 − x i ) ) p = ∑ i = 1 n x i − ( ∑ i = 1 n x i ) p \left( \sum_{i=1}^n (1 - x_i) \right) p = \sum_{i=1}^n x_i - \left( \sum_{i=1}^n x_i \right) p (i=1n(1xi))p=i=1nxi(i=1nxi)p

    将含 p p p 的项移到方程的左侧:
    p ( ∑ i = 1 n ( 1 − x i ) + ∑ i = 1 n x i ) = ∑ i = 1 n x i p \left( \sum_{i=1}^n (1 - x_i) + \sum_{i=1}^n x_i \right) = \sum_{i=1}^n x_i p(i=1n(1xi)+i=1nxi)=i=1nxi

  4. 由于 ∑ i = 1 n ( 1 − x i ) + ∑ i = 1 n x i = n \sum_{i=1}^n (1 - x_i) + \sum_{i=1}^n x_i = n i=1n(1xi)+i=1nxi=n,所以方程变为:
    p × n = ∑ i = 1 n x i p \times n = \sum_{i=1}^n x_i p×n=i=1nxi

  5. 最后,解出 p p p
    p = ∑ i = 1 n x i n p = \frac{\sum_{i=1}^n x_i}{n} p=ni=1nxi

结论

这意味着参数 p p p 的极大似然估计值 p ^ \hat{p} p^ 是样本中 1 的比例,或者说是数据集中 1 的出现频率。换句话说,极大似然估计认为最可能的 p p p 是观测数据中 1 出现的频率。

直观理解

通过极大似然估计,我们假设观测数据来自一个伯努利分布,并通过求解最大化对数似然函数的参数 p p p,找到使观测数据出现的概率最大的那个参数。在这种情况下, p p p 其实就是样本中 1 出现的频率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值