机器学习|点估计-极大似然估计法(以联合密度、联合概率函数为例)| 20mins入门|概统学习笔记(二十六)

(二) 极大似然估计法

  • 本质:这是在总体类型已知条件下使用的一种参数估计方法

  • 引入问题:同学和猎人外出打猎,突然一只野兔出现,砰的一声,野兔被枪击倒,你猜是谁将野兔打倒的呢?

    答:猎人击倒野兔的可能性大,因此应该是猎人打倒的

  • 基本思想:选择一个参数使得实验结果具有最大概率。

  • 原理:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自总体X的一个样本,样本的联合密度(连续型)或联合概率函数(离散型)为 f ( X 1 , X 2 , . . . , X n ; θ ) f(X_1,X_2,...,X_n;\theta) f(X1,X2,...,Xn;θ)

    当给定样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn时,定义似然函数为:
    L ( θ ) = f ( X 1 , X 2 , . . . , X n ; θ ) L(\theta)=f(X_1,X_2,...,X_n;\theta) L(θ)=f(X1,X2,...,Xn;θ)
    L ( θ ) L(\theta) L(θ)看作参数 θ \theta θ的函数,它可作为 θ \theta θ将以多大可能产生样本值 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn的一种度量。

    极大似然估计法就是用使 L ( θ ) L(\theta) L(θ)达到最大值的 θ ^ \hat \theta θ^去估计 θ \theta θ.
    L ( θ ^ ) = m a x θ L ( θ ) L(\hat \theta)=max_{\theta}L(\theta) L(θ^)=maxθL(θ)
    θ ^ \hat \theta θ^ θ \theta θ的极大似然估计(Maximum Likelihood Estimation)

  • 极大似然估计(MLE)的一般步骤:

    (1)由总体分布导出样本的联合概率函数(或联合密度);

    (2)把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数 θ \theta θ看作自变量,得到似然函数 L ( θ ) L(\theta) L(θ)

    (3)求似然函数 L ( θ ) L(\theta) L(θ)的最大值点(常常转化为求 l n L ( θ ) lnL(\theta) lnL(θ)的最大值点),即 θ \theta θ的MLE;

    (4)在最大值点的表达式中,用样本值带入就得参数的极大似然估计值

    注意:

    (1)求似然函数 L ( θ ) L(\theta) L(θ)的最大值点,可以应用微积分中的技巧。由于 l n ( x ) ln(x) ln(x) x x x的增函数, l n L ( θ ) lnL(\theta) lnL(θ) L ( θ ) L(\theta) L(θ) θ \theta θ的同一值处达到它的最大值,假定 θ \theta θ是一实数,且 l n L ( θ ) lnL(\theta) lnL(θ) θ \theta θ的一个可微函数。通过求解所谓的”似然方程“:
    d l n L ( θ ) d θ = 0 \frac{dlnL(\theta)}{d\theta}=0 dθdlnL(θ)=0
    可以得到 θ \theta θ的MLE。

    θ \theta θ是向量,上述方程必须用似然方程组代替。

    (2)用上述求导方法求参数的MLE有时行不通,这时要用极大似然原则(使似然函数 L ( θ ) L(\theta) L(θ)值最大)来求

  • e.g 以联合概率函数为例

    X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自总体 X X X~ B ( 1 , p ) B(1,p) B(1,p)的一个样本,求参数p的极大似然估计

    第一步:由总体分布导出样本概率函数;

    总体的分布: X X X~ B ( 1 , p ) → P ( X = x ) = p x ( 1 − p ) 1 − x x = 0 , 1 B(1,p) \quad \to \quad P(X=x)=p^x(1-p)^{1-x} \quad x=0,1 B(1,p)P(X=x)=px(1p)1xx=0,1

    于是,样本的联合分布为:

    P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) , . . . , P ( X n = x n ) P(X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_1=x_1)P(X_2=x_2),...,P(X_n=x_n) P(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)P(X2=x2),...,P(Xn=xn)

    = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i =\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} =i=1npxi(1p)1xi=pi=1nxi(1p)ni=1nxi

    第二步:把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数 θ \theta θ看作自变量,得到似然函数 L ( θ ) L(\theta) L(θ);

    似然函数为:
    L ( p ) = f ( X 1 , X 2 , . . . , X n ; p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i L(p)=f(X_1,X_2,...,X_n;p)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} L(p)=f(X1,X2,...,Xn;p)=i=1npxi(1p)1xi=pi=1nxi(1p)ni=1nxi
    第三步:求似然函数 L ( θ ) L(\theta) L(θ)的最大值点(常常转化为 l n L ( θ ) lnL(\theta) lnL(θ)的最大值点),即 θ \theta θ的MLE;

    对数似然函数为:
    l n L ( p ) = ∑ i = 1 n x i l n ( p ) + ( n − ∑ i = 1 n x i ) l n ( 1 − p ) lnL(p)=\sum^n_{i=1}x_iln(p)+(n-\sum_{i=1}^nx_i)ln(1-p) lnL(p)=i=1nxiln(p)+(ni=1nxi)ln(1p)
    对p求导并令其为0,得
    d l n L ( p ) d p = 1 p ∑ i = 1 n x i − 1 1 − p ( n − ∑ i = 1 n x i ) = 0 ∴ p = 1 n ∑ i = 1 n x i = x ‾ \frac{dlnL(p)}{dp}=\frac{1}{p}\sum_{i=1}^nx_i-\frac{1}{1-p}(n-\sum_{i=1}^nx_i)=0 \\ \therefore p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x dpdlnL(p)=p1i=1nxi1p1(ni=1nxi)=0p=n1i=1nxi=x
    第四步:在最大值点的表达式中,用样本值代入就得参数的极大似然估计值;

    p ^ = 1 n ∑ i = 1 n x i = x ‾ \hat p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x p^=n1i=1nxi=x,即为p的MLE。

    于是,p的极大似然估计量为 p ^ = 1 n ∑ i = 1 n X i = X ‾ \hat p=\frac{1}{n}\sum_{i=1}^nX_i=\overline X p^=n1i=1nXi=X

    这一估计量与矩估计量是相同的。

  • e.g 以联合密度函数为例

    X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自总体X的一个样本

    X X X~ f ( x ) = { θ x θ − 1 , 0 < x < 1 0 , 其 它 f(x)=\begin{cases} \theta x^{\theta -1} , \quad 0<x<1 \\ 0, \quad 其它 \end{cases} f(x)={θxθ1,0<x<10,

    其中 θ > 0 \theta >0 θ>0,求 θ \theta θ的极大似然估计。

    似然函数为
    L ( θ ) = ∏ i = 1 n θ x i θ − 1 = θ n ( ∏ i = 1 n x i ) θ − 1 ( 0 < x i < 1 , 1 ≤ i ≤ n ) L(\theta)=\prod_{i=1}^n\theta x_i^{\theta -1}=\theta^n(\prod_{i=1}^nx_i)^{\theta-1} \quad \quad (0<x_i<1, 1\leq i\leq n) L(θ)=i=1nθxiθ1=θn(i=1nxi)θ1(0<xi<1,1in)
    对数似然函数为
    l n L ( θ ) = n l n θ + ( θ − 1 ) ∑ i = 1 n l n x i lnL(\theta)=nln\theta+(\theta-1)\sum^n_{i=1}lnx_i lnL(θ)=nlnθ+(θ1)i=1nlnxi
    求导并令其为0
    d l n L ( θ ) d θ = n θ + ∑ i = 1 n l n x i = 0 \frac{dlnL(\theta)}{d\theta}=\frac{n}{\theta}+\sum_{i=1}^nlnx_i=0 dθdlnL(θ)=θn+i=1nlnxi=0
    解得
    θ ^ = − n ∑ i = 1 n l n x i \hat \theta=-\frac{n}{\sum_{i=1}^nlnx_i} θ^=i=1nlnxin
    即为 θ \theta θ的MLE

  • e.g 以极大似然原则为例

    X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1X2,...,Xn取自总体X的一个样本

    X X X~ f ( x ) = { 1 θ e − ( x − μ ) / θ , x ≥ μ 0 , 其 它 f(x)=\begin{cases} \frac{1}{\theta}e^{-(x-\mu)/\theta}, \quad x\geq \mu \\ 0,\quad 其它 \end{cases} f(x)={θ1e(xμ)/θ,xμ0,

    θ , μ \theta,\mu θ,μ为未知参数,其中 θ > 0 \theta>0 θ>0,求 θ , μ \theta,\mu θ,μ的极大似然估计

    解:似然函数为
    L ( θ , μ ) = { ∏ i = 1 n 1 θ e − ( x i − μ ) / θ x i ≥ μ , i = 1 , 2 , . . . , n 0 , 其 它 = { 1 θ n e − 1 θ ∑ i = 1 n ( x i − μ ) , m i n   x i ≥ μ 0 , 其 它 L(\theta,\mu)=\begin{cases}\prod_{i=1}^n\frac{1}{\theta}e^{-(x_i-\mu)/\theta} & x_i\geq \mu,i=1,2,...,n \\0, & 其它\end{cases}\\=\begin{cases}\frac{1}{\theta^n}e^{-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu)}, & min\space x_i\geq \mu \\0, & 其它\end{cases} L(θ,μ)={i=1nθ1e(xiμ)/θ0,xiμi=1,2,...,n={θn1eθ1i=1n(xiμ),0,min xiμ

    对数似然函数为:
    l n L ( θ , μ ) = − n l n θ − 1 θ ∑ i = 1 n ( x i − μ ) lnL(\theta,\mu)=-nln\theta-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu) lnL(θ,μ)=nlnθθ1i=1n(xiμ)
    θ , μ \theta,\mu θ,μ分别求偏导并令其为0,
    ∂ l n L ( θ , μ ) ∂ θ = − n θ + 1 θ 2 ∑ i = 1 n ( x i − μ ) = 0 (1) \frac{\partial lnL(\theta,\mu)}{\partial \theta}=-\frac{n}{\theta}+\frac{1}{\theta^2}\sum_{i=1}^n(x_i-\mu)=0 \tag{1} θlnL(θ,μ)=θn+θ21i=1n(xiμ)=0(1)

    ∂ l n L ( θ , μ ) ∂ μ = n θ = 0 (2) \frac{\partial lnL(\theta,\mu)}{\partial \mu}=\frac{n}{\theta}=0 \tag{2} μlnL(θ,μ)=θn=0(2)

    由(1)得: θ = 1 n ∑ i = 1 n x i − μ \theta=\frac{1}{n}\sum_{i=1}^nx_i-\mu θ=n1i=1nxiμ

    由(2)得:无解! n θ > 0 \frac{n}{\theta}>0 θn>0恒成立

    用求导方法无法最终确定 θ 、 μ \theta、\mu θμ,用极大似然原则来求。

    m i n   x i ≥ μ , L ( θ , μ ) > 0 min\space x_i\geq \mu,L(\theta,\mu)>0 min xiμ,L(θ,μ)>0,且是 μ \mu μ的增函数

    故要使 L ( θ , μ ) L(\theta,\mu) L(θ,μ)达到最大,则 μ = m i n   x i \mu=min\space x_i μ=min xi,即 μ \mu μ的MLE

    根据定义域,有 μ ∗ = m i n 1 ≤ i ≤ n x i \mu^*=min_{1\leq i\leq n}x_i μ=min1inxi,即 θ ∗ , μ ∗ \theta^*,\mu^* θ,μ θ , μ \theta,\mu θ,μ的MLE。

    于是 θ ∗ = 1 n ∑ i = 1 n x i − μ ∗ \theta^*=\frac{1}{n}\sum_{i=1}^nx_i-\mu^* θ=n1i=1nxiμ

  • 极大似然估计的一个性质:

    θ \theta θ的函数 g = g ( θ ) g=g(\theta) g=g(θ) θ \theta θ上的实值函数,且有唯一反函数。如果 θ ^ \hat \theta θ^ θ \theta θ的MLE,则 g ( θ ^ ) g(\hat \theta) g(θ^)也是 g ( θ ) g(\theta) g(θ)的极大似然估计

    e.g 一罐中装有白球和黑球,有放回地抽取一个容量为n的样本,其中有k个白球,求罐中黑球与白球之比R的极大似然估计。

    解:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn为所取样本
    X i = { 1 , 取 到 白 球 0 , 取 到 黑 球 X_i= \begin{cases} 1, & 取到白球 \\ 0, & 取到黑球 \end{cases} Xi={1,0,
    其中 i = 1 , 2 , . . . , n i=1,2,...,n i=1,2,...,n,则 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自 B ( 1 , p ) B(1,p) B(1,p)的样本,p是每次抽取时取到白球的概率,p未知,求p的MLE。

    似然函数为
    L ( p ) = P ( Y = k ; p ) = ( n k ) p k ( 1 − p ) n − k L(p)=P(Y=k;p)=\begin{pmatrix}n \\ k\end{pmatrix}p^k(1-p)^{n-k} L(p)=P(Y=k;p)=(nk)pk(1p)nk
    对数似然函数为
    l n L ( p ) = l n ( n k ) + k l n p + ( n − k ) l n ( 1 − p ) lnL(p)=ln\begin{pmatrix}n\\ k\end{pmatrix}+ klnp+(n-k)ln(1-p) lnL(p)=ln(nk)+klnp+(nk)ln(1p)
    对p求导并令其为0
    d l n f ( p ) d p = k p − n − k 1 − p = 0 \frac{d lnf(p)}{dp}=\frac{k}{p}-\frac{n-k}{1-p}=0 dpdlnf(p)=pk1pnk=0
    解得
    p ^ = k n \hat p =\frac{k}{n} p^=nk
    对一切的 0 < p < 1 0<p<1 0<p<1,均有
    P ( Y = k ; p ^ ) ≥ P ( Y = k ; p ) P(Y=k;\hat p) \geq P(Y=k;p) P(Y=k;p^)P(Y=k;p)
    由极大似然估计的性质可得, R = 1 − p p R=\frac{1-p}{p} R=p1p的MLE是
    R ^ = 1 − p ^ p ^ = n k − 1 \hat R=\frac{1-\hat p}{\hat p}= \frac{n}{k}-1 R^=p^1p^=kn1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值