六大常用分布的矩估计和最大似然估计推导过程

矩估计和极大似然估计

矩估计基于辛钦大数定律:

当样本的容量足够大时,样本k阶距(A_k)收敛域总体k阶距(a_k)

样本的平均值去估计总体的均值(期望)

期望和均值

数学期望常称为“均值”,即“随机变量取值的平均值”之意,这个平均是以概率为权的平均,不是通常意义上的(总数)/(个数),数学期望由随机变量的分布完全决定。
X ˉ = 1 n ∑ i = 1 n x i \bar{X}=\frac{1}{n}\sum_{i=1}^nx_i Xˉ=n1i=1nxi
(1)式,其实是平均值(期望是均值),对其求期望其实就是一个加权的过程,所以无论是哪种分布,都是E(x)=μ,而非X平均值=μ

方差:衡量一组数据离散程度的度量
S 2 = 1 n ∑ i = 1 n ( X − μ ) 2 S^2=\frac{1}{n}\sum_{i=1}^n(X-\mu)^2 S2=n1i=1n(Xμ)2
误差分析:

  • 因为X取得是样本,所以X的取值存在误差
  • 因为我们事先是不知道是什么分布的,所以μ是不知道的,使用均值替代的话,也会出现误差

方差和修正方差的来源及其证明
S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 S 2 = 1 n ∑ i = 1 n [ ( x i − μ ) − ( X ˉ − μ ) ] 2 S 2 = 1 n ∑ i = 1 n [ ( x i − μ ) 2 − 2 ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ] S 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ∑ i = 1 n ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 S 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − ( X ˉ − μ ) 2 E ( S 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − ( X ˉ − μ ) 2 ) = σ 2 − E ( ( X ˉ − μ ) 2 ) E ( ( X ˉ − μ ) 2 ) = E ( X ˉ 2 − 2 μ X ˉ + μ 2 ) = E ( X ˉ 2 ) − E ( X ˉ ) 2 = D ( X ) = σ 2 n E ( S 2 ) = σ 2 − σ 2 n = n − 1 n σ 2 S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{X})^2\\ S^2=\frac{1}{n}\sum_{i=1}^n[(x_i-\mu)-(\bar{X}-\mu)]^2\\ S^2=\frac{1}{n}\sum_{i=1}^n[(x_i-\mu)^2-2(x_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2]\\ S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2\\ S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-(\bar{X}-\mu)^2\\ E(S^2)=E(\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-(\bar{X}-\mu)^2)=\sigma^2-E((\bar{X}-\mu)^2)\\ E((\bar{X}-\mu)^2)=E(\bar{X}^2-2\mu\bar{X}+\mu^2)=E(\bar{X}^2)-E(\bar{X})^2=D(X)=\frac{\sigma^2}{n}\\ E(S^2)=\sigma^2-\frac{\sigma^2}{n}=\frac{n-1}{n}\sigma^2\\ S2=n1i=1n(xiXˉ)2S2=n1i=1n[(xiμ)(Xˉμ)]2S2=n1i=1n[(xiμ)22(xiμ)(Xˉμ)+(Xˉμ)2]S2=n1i=1n(xiμ)2n2i=1n(xiμ)(Xˉμ)+(Xˉμ)2S2=n1i=1n(xiμ)2(Xˉμ)2E(S2)=E(n1i=1n(xiμ)2(Xˉμ)2)=σ2E((Xˉμ)2)E((Xˉμ)2)=E(Xˉ22μXˉ+μ2)=E(Xˉ2)E(Xˉ)2=D(X)=nσ2E(S2)=σ2nσ2=nn1σ2
由上可知S^2σ^2是有微小差距的,所以对此做修正,得到的方差就是修正方差
E ( n n − 1 S 2 ) = n n − 1 n − 1 n σ 2 = σ 2 n n − 1 S 2 = n n − 1 1 n ∑ i = 1 n ( x i − X ˉ ) 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 ( S ∗ ) 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 E(\frac{n}{n-1}S^2)=\frac{n}{n-1}\frac{n-1}{n}\sigma^2=\sigma^2\\ \frac{n}{n-1}S^2=\frac{n}{n-1}\frac{1}{n}\sum_{i=1}^n(x_i-\bar{X})^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{X})^2\\ (S^*)^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{X})^2 E(n1nS2)=n1nnn1σ2=σ2n1nS2=n1nn1i=1n(xiXˉ)2=n11i=1n(xiXˉ)2(S)2=n11i=1n(xiXˉ)2
本质:使用样本原点距去估计总体原点距的一种方法(用样本量估计总体量)


估计均值
E ( X ˉ ) = E ( 1 n ∑ i = 1 n x i ) = 1 n ∑ i = 1 n E ( x i ) = 1 n n μ = μ E(\bar X)=E(\frac{1}{n}\sum_{i=1}^nx_i)=\frac{1}{n}\sum_{i=1}^nE(x_i)=\frac{1}{n}n\mu=\mu E(Xˉ)=E(n1i=1nxi)=n1i=1nE(xi)=n1nμ=μ

u ^ = X ˉ = 1 n ∑ i = 1 n x i \hat{u}=\bar{X}=\frac{1}{n}\sum_{i=1}^nx_i u^=Xˉ=n1i=1nxi

估计方差
σ 2 = a 2 − a 1 2 = 1 n ∑ i = 1 n x i 2 − X ˉ 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 = S 2 \sigma^2=a_2-a_1^2=\frac{1}{n}\sum_{i=1}^nx_i^2-\bar{X}^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{X})^2=S^2 σ2=a2a12=n1i=1nxi2Xˉ2=n1i=1n(xiXˉ)2=S2

σ ^ 2 = S 2 \hat{\sigma}^2=S^2 σ^2=S2


0-1分布:只有一个未知参数,所以也只能估P的值

X01
P1-pp

p ( x = x i ) = ( 1 − p ) 1 − x i p x i p(x=x_i)=(1-p)^{1-x_i}p^{x_i} p(x=xi)=(1p)1xipxi

矩估计:
E ( X ˉ ) = E ( 1 n ∑ i = 1 n x i ) = 1 n ∑ i = 1 n E ( x i ) = 1 n n p = p E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^nx_i)=\frac{1}{n}\sum_{i=1}^nE(x_i)=\frac{1}{n}np=p E(Xˉ)=E(n1i=1nxi)=n1i=1nE(xi)=n1np=p

p ^ = X ˉ = 1 n ∑ i = 1 n x i \hat{p}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i p^=Xˉ=n1i=1nxi

最大似然估计
L ( p ) = ( 1 − p ) ∑ x i = 1 n ( 1 − x i ) p ∑ x i = 1 n x i L(p)=(1-p)^{\sum_{x_i=1}^n(1-x_i)}p^{\sum_{x_i=1}^n{x_i}} L(p)=(1p)xi=1n(1xi)pxi=1nxi

l n L ( p ) = ∑ x i = 1 n ( 1 − x i ) l n ( 1 − p ) + ∑ x i = 1 n x i l n p lnL(p)=\sum_{x_i=1}^n(1-x_i)ln(1-p)+\sum_{x_i=1}^n{x_i}lnp lnL(p)=xi=1n(1xi)ln(1p)+xi=1nxilnp

令 : ∂ l n L ( p ) ∂ p = − ∑ x i = 1 n ( 1 − x i ) 1 − p + ∑ x i = 1 n x i p = 0 令:\frac{\partial{lnL(p)}}{\partial{p}}=-\frac{\sum_{x_i=1}^n(1-x_i)}{1-p}+\frac{\sum_{x_i=1}^n{x_i}}{p}=0 plnL(p)=1pxi=1n(1xi)+pxi=1nxi=0

p ^ = X ˉ = 1 n ∑ i = 1 n x i \hat{p}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i p^=Xˉ=n1i=1nxi

注:估计的P,其实表示的就是在n次试验下,出现1的次数的概率


泊松分布
P ( x = x i ) = λ x i e − λ x i ! P(x=x_i)=\frac{\lambda^{x_i}e^{-\lambda}}{x_i!} P(x=xi)=xi!λxieλ
矩估计
E ( X ˉ ) = E ( 1 n ∑ i = 1 n x i ) = 1 n ∑ i = 1 n E ( x i ) = 1 n n λ = λ E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^{n}x_i)=\frac{1}{n}\sum_{i=1}^{n}E(x_i)=\frac{1}{n}n\lambda=\lambda E(Xˉ)=E(n1i=1nxi)=n1i=1nE(xi)=n1nλ=λ

λ ^ = X ˉ = 1 n ∑ i = 1 n x i \hat{\lambda}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i λ^=Xˉ=n1i=1nxi

注:E(x_i)=入的证明过程,其中使用到了泰勒公式进行变换
E ( X ) = ∑ i = 1 ∞ x i P ( x = x i ) = ∑ i = 1 ∞ x i λ x i e − λ x i ! = λ e − λ ∑ i = 1 ∞ λ x i − 1 ( x i − 1 ) ! = λ e − λ e λ = λ E(X)=\sum_{i=1}^\infty x_iP(x=x_i)=\sum_{i=1}^\infty x_i\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}=\lambda e^{-\lambda}\sum_{i=1}^\infty \frac{\lambda ^{x_i-1}}{(x_i-1)!}=\lambda e^{-\lambda}e^{\lambda}=\lambda E(X)=i=1xiP(x=xi)=i=1xixi!λxieλ=λeλi=1(xi1)!λxi1=λeλeλ=λ
最大似然估计
L ( λ ) = λ ∑ i = 1 n x i e − n λ ∏ i = 1 n x i ! L(\lambda)=\frac{\lambda^{\sum_{i=1}^{n}x_i}e^{-n\lambda}}{\prod_{i=1}^{n}x_i!} L(λ)=i=1nxi!λi=1nxienλ

l n L ( λ ) = ∑ i = 1 n x i l n ( λ ) − n λ − l n ( ∏ i = 1 n x i ! ) lnL(\lambda)=\sum_{i=1}^{n}x_iln(\lambda)-n\lambda-ln(\prod_{i=1}^nx_i!) lnL(λ)=i=1nxiln(λ)nλln(i=1nxi!)

令 : ∂ l n L ( λ ) ∂ λ = ∑ i = 1 n x i λ − n = 0 令: \frac{\partial{lnL(\lambda)}}{\partial\lambda}=\frac{\sum_{i=1}^{n}x_i}{\lambda}-n=0 λlnL(λ)=λi=1nxin=0

可 得 : λ ^ = X ˉ = 1 n ∑ i = 1 n x i 可得:\hat{\lambda}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i :λ^=Xˉ=n1i=1nxi


均匀分布
f ( x ) = { 1 b − a a < x < b 0 其 他 f(x)=\begin{cases}\frac{1}{b-a}\quad a<x<b\\0\quad\quad其他\end{cases} f(x)={ba1a<x<b0

注:这里有两个参数,分别是a和b,故需要至少列两个参数才能得到解

矩估计
E ( X ) = ∫ a b x f ( x ) d x = ∫ a b x b − a d x = 1 2 ( b + a ) = X ˉ σ 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 = S 2 ( 下 式 原 理 ) 1 b − a ∫ a b ( x − X ˉ ) 2 d x = 1 b − a ∫ a b ( x − 1 2 ( b + a ) ) 2 d x = 1 12 ( b − a ) 2 = S 2 解 得 : { b ^ = X ˉ + 3 S a ^ = X ˉ − 3 S E(X)=\int_{a}^{b}xf(x)dx=\int_{a}^{b}\frac{x}{b-a}dx=\frac{1}{2}(b+a)=\bar{X}\\ \sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{X})^2=S^2(下式原理)\\ \frac{1}{b-a}\int_{a}^{b}(x-\bar{X})^2dx=\frac{1}{b-a}\int_{a}^{b}(x-\frac{1}{2}(b+a))^2dx=\frac{1}{12}(b-a)^2=S^2\\ 解得:\begin{cases}^{\hat{a}=\bar{X}-\sqrt{3}S}_{\hat{b}=\bar{X}+\sqrt{3}S}\end{cases} E(X)=abxf(x)dx=abbaxdx=21(b+a)=Xˉσ2=n1i=1n(xiXˉ)2=S2()ba1ab(xXˉ)2dx=ba1ab(x21(b+a))2dx=121(ba)2=S2{b^=Xˉ+3 Sa^=Xˉ3 S
最大似然估计

常规的,列最大似然函数,然后求导令为零是求不出估计值。


指数分布

特点:无记忆性,可以用于描述机器寿命。
f ( x ) = { 0 其 他 λ e − λ x x > 0 f(x)=\begin{cases}^{\lambda e^{-\lambda x}\quad x>0}_{0\quad\quad 其他}\end{cases} f(x)={0λeλxx>0
矩估计:
E ( X ) = ∫ 0 + ∞ λ x e − λ x d x = 1 λ = X ˉ λ ^ = 1 X ˉ E(X)=\int_0^{+\infty}\lambda xe^{-\lambda x}dx=\frac{1}{\lambda}=\bar{X}\\ \hat{\lambda}=\frac{1}{\bar{X}} E(X)=0+λxeλxdx=λ1=Xˉλ^=Xˉ1
极大似然估计
L ( λ ) = λ n e − λ ∑ i = 1 n x i l n L ( λ ) = n l n λ − λ ∑ i = 1 n x i 令 : ∂ ( l n L ( λ ) ) ∂ λ = n λ − ∑ i = 1 n x i = 0 λ ^ = n ∑ i = 1 n 1 x i = 1 X ˉ L(\lambda)=\lambda^ne^{-\lambda \sum_{i=1}^nx_i}\\ lnL(\lambda)=nln\lambda-\lambda\sum_{i=1}^nx_i\\ 令:\frac{\partial({lnL(\lambda)})}{\partial\lambda}=\frac{n}{\lambda}-\sum_{i=1}^{n}x_i=0\\ \hat{\lambda}=n\sum_{i=1}^n\frac{1}{x_i}=\frac{1}{\bar{X}} L(λ)=λneλi=1nxilnL(λ)=nlnλλi=1nxiλ(lnL(λ))=λni=1nxi=0λ^=ni=1nxi1=Xˉ1


正态分布
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2
X~N(μ,σ^2)
{ σ ^ = S μ ^ = X ˉ \begin{cases}^{\hat{\mu}=\bar{X}}_{\hat{\sigma}=S}\end{cases} {σ^=Sμ^=Xˉ


写笔记难免有错误,烦请指正!如有疑问可加QQ:1372931501

  • 89
    点赞
  • 452
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
多元高斯分布是指多维随机变量的联合概率密度函数服从高斯分布,通常用以下公式表示: $$ p(\boldsymbol{x}) = \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right) $$ 其中,$\boldsymbol{x}$ 是一个 $d$ 维的向量,$\boldsymbol{\mu}$ 是一个 $d$ 维的均值向量,$\boldsymbol{\Sigma}$ 是一个 $d \times d$ 的协方差矩阵。 我们的目标是要通过样本数据来估计参数 $\boldsymbol{\mu}$ 和 $\boldsymbol{\Sigma}$ 的值。根据最大似然估计的原理,我们需要找到一组参数 $\boldsymbol{\mu}_{ML}$ 和 $\boldsymbol{\Sigma}_{ML}$,使得样本数据在这组参数下出现的概率最大。 首先,我们考虑均值 $\boldsymbol{\mu}$ 的最大似然估计。假设我们有 $N$ 个样本数据 $\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_N$,我们的目标是最大化这些样本数据在多元高斯分布下的联合概率密度函数。可以写成如下形式: $$ \begin{aligned} L(\boldsymbol{\mu}, \boldsymbol{\Sigma}) &= \prod_{n=1}^N p(\boldsymbol{x}_n) \\ &= \prod_{n=1}^N \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left(-\frac{1}{2}(\boldsymbol{x}_n-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_n-\boldsymbol{\mu})\right) \\ &= \frac{1}{(2\pi)^{Nd/2}|\boldsymbol{\Sigma}|^{N/2}}\exp\left(-\frac{1}{2}\sum_{n=1}^N(\boldsymbol{x}_n-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_n-\boldsymbol{\mu})\right) \end{aligned} $$ 对上式取对数,并对 $\boldsymbol{\mu}$ 求偏导数,并令其等于零,可以得到如下的最大似然估计: $$ \boldsymbol{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^N \boldsymbol{x}_n $$ 接下来,我们考虑协方差矩阵 $\boldsymbol{\Sigma}$ 的最大似然估计。同样地,我们要找到一组参数 $\boldsymbol{\Sigma}_{ML}$,使得样本数据在这组参数下出现的概率最大。同样地,我们对样本数据的联合概率密度函数取对数,然后对 $\boldsymbol{\Sigma}$ 求偏导数,并令其等于零,可以得到如下的最大似然估计: $$ \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^N (\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})(\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})^T $$ 这个结果表明,协方差矩阵的最大似然估计可以通过样本数据的协方差矩阵来计算。如果我们假设样本数据是独立同分布的,则上述公式可以进一步简化为: $$ \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^N (\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})(\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})^T $$ 这个公式可以直接用于实际计算。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值