概率论基础知识(三) 参数估计

概率论基础知识(三) 参数估计

1、矩

矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。
矩是更具有一般意义的数字特征。

设有随机变量X,若 E ( ∣ X ∣ k ) &lt; + ∞ E(|X|^k)&lt;+\infty E(Xk)<+(即:存在且有限),则称 α k = E ( X k ) \alpha_k=E(X^k) αk=E(Xk),k=1, 2, …是X的k阶原点矩

若E(X)存在,且 E ( ∣ X − E X ∣ k ) &lt; + ∞ E(|X-EX|^k)&lt;+\infty E(XEXk)<+,则称 β k = E ( X − E X ) k , &ThickSpace; k = 1 , 2 , . . . \beta_k=E(X-EX)^k,\; k=1,2, ... βk=E(XEX)k,k=1,2,...是X的k阶中心矩

期望EZ:一阶原点矩
方差DZ:二阶中心距

高阶矩存在,则低阶矩显然存在。

2、点估计之矩估计

点估计
设总体的分布函数为 F ( x , θ 1 , θ 2 , . . . , θ k ) F(x, \theta_1, \theta_2, ... , \theta_k) F(x,θ1,θ2,...,θk)(分布已确定,有未知参数),以样本 X 1 , X 2 , . . . , X n X_1, X_2, ... , X_n X1,X2,...,Xn对未知参数 θ i ( i = 1 , 2 , . . . , n ) \theta_i(i=1, 2, ... , n) θi(i=1,2,...,n)构造一个合适的统计量:
θ ^ i = θ ^ i ( X 1 , X 2 , . . . , X n ) \hat\theta_i=\hat\theta_i(X_1, X_2, ... , X_n) θ^i=θ^i(X1,X2,...,Xn)每当有一组具体的样本值 x 1 , x 2 , . . . , x n x_1, x_2, ... , x_n x1,x2,...,xn,将一个数值 θ ^ i ( X 1 , X 2 , . . . , X n ) \hat\theta_i(X_1, X_2, ... , X_n) θ^i(X1,X2,...,Xn)作为 θ i \theta_i θi的估计(点估计)。

简单来说,就是已知总体分布,由样本推断未知参数。

矩估计
以样本矩作为总体矩的估计。
总体矩:
a k = E X k , b k = E ( X − E X ) k a_k=EX^k, b_k=E(X-EX)^k ak=EXk,bk=E(XEX)k
样本矩:
α k = 1 n ∑ i = 1 n X i k , β k = 1 n ∑ i = 1 n ( X i − X ^ ) k \alpha_k={1 \over n}\sum_{i=1}^nX_i^k, \beta_k={1 \over n}\sum_{i=1}^n(X_i-\hat X)^k αk=n1i=1nXik,βk=n1i=1n(XiX^)k
由大数定律可知:
α k → a k , β k → b k \alpha_k\to a_k, \beta_k\to b_k αkak,βkbk

3、点估计之极大似然估计法

基本思想:最大可能性原则(似然即是可能性)
在这里插入图片描述
设总体分布已知p(x),含有一个或n个未知参数 θ 1 , θ 2 , . . . , θ n \theta_1, \theta_2, ... , \theta_n θ1,θ2,...,θn
X 1 , X 2 , . . . , X n X_1, X_2, ... , X_n X1,X2,...,Xn为来自该总体的样本;
x 1 , x 2 , . . . , x n x_1, x_2, ... , x_n x1,x2,...,xn是样本的观测值。

这相当于事件 X 1 = x 1 , X 2 = x 2 , . . . , X n = x n {X_1=x_1, X_2=x_2, ... , X_n=x_n} X1=x1,X2=x2,...,Xn=xn最可能发生的事件,我们认为它有最大概率。

样本的(联合)概率密度:
∏ i = 1 n p ( x , θ 1 , θ 2 , . . . , θ n ) = L ( x 1 , . . . , x n , θ 1 , θ 2 , . . . , θ n ) \prod_{i=1}^np(x, \theta_1, \theta_2, ... , \theta_n)=L(x_1, ... , x_n, \theta_1, \theta_2, ... , \theta_n) i=1np(x,θ1,θ2,...,θn)=L(x1,...,xn,θ1,θ2,...,θn)

联合概率密度主要采用微积分方法求解:概率统计“搭台”,微积分“唱戏”。

使似然函数L取到最大值的 θ ^ 1 , θ ^ 2 , . . . , θ ^ n \hat\theta_1, \hat\theta_2, ... , \hat\theta_n θ^1,θ^2,...,θ^n称为未知参数 θ 1 , θ 2 , . . . , θ n \theta_1, \theta_2, ... , \theta_n θ1,θ2,...,θn极大似然估计值

简单来说,就是:
认为观测值是最有可能发生的样本,故:使其联合概率密度函数最大化时求出的 θ \theta θ是产生当前结果最有可能的 θ \theta θ

1、若总体X为离散型,其概率分布列为
P ( X = x ) = p ( x ; θ ) P(X=x)=p(x; \theta) P(X=x)=p(x;θ)其中 θ \theta θ为未知参数。设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.,Xn)是取自总体的样本容量为n的样本,则 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.,Xn)的联合分布律为 ∏ i = 1 n p ( x i , θ ) \prod_{i=1}^np(x_i, \theta) i=1np(xi,θ)。又设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.,Xn)的一组观测值为 ( x 1 , x 2 . … , x n ) (x_1, x_2.…, x_n) (x1,x2.,xn),易知样本 X 1 , X 2 . … , X n X_1, X_2.…, X_n X1,X2.,Xn取到观测值 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.,xn的概率为:
L ( θ ) = L ( x 1 , x 2 . … , x n ; θ ) = ∏ i = 1 n p ( x i , θ ) L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^np(x_i, \theta) L(θ)=L(x1,x2.,xn;θ)=i=1np(xi,θ)这一概率随 θ \theta θ的取值而变化,它是 θ \theta θ的函数,称 L ( θ ) L(\theta) L(θ)为样本的似然函数。
2、若总体X为连续型,其概率密度函数为 f ( x ; θ ) f(x; \theta) f(x;θ),其中 θ \theta θ为未知参数。设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.,Xn)是取自总体的样本容量为n的简单样本,则 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.,Xn)的联合概率密度函数为 ∏ i = 1 n f ( x i , θ ) \prod_{i=1}^nf(x_i, \theta) i=1nf(xi,θ)。又设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.,Xn)的一组观测值为 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.,xn,则随机点 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.,Xn)落在点 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.,xn的邻边(边长分别为 d x 1 , d x 2 , … , d x n dx_1, dx_2, …, dx_n dx1,dx2,,dxn的n维立方体)内的概率近似地为 ∏ i = 1 n f ( x i , θ ) d x i \prod_{i=1}^nf(x_i, \theta)dx_i i=1nf(xi,θ)dxi
考虑函数
L ( θ ) = L ( x 1 , x 2 . … , x n ; θ ) = ∏ i = 1 n f ( x i , θ ) L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^nf(x_i, \theta) L(θ)=L(x1,x2.,xn;θ)=i=1nf(xi,θ)
同样, L ( θ ) L(\theta) L(θ)称为样本的似然函数。
极大似然估计法原理就是固定样本观测值 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.,xn,挑选参数 θ \theta θ使 L ( x 1 , x 2 . … , x n ; θ ^ ) = m a x L ( x 1 , x 2 . … , x n ; θ ) L(x_1, x_2.…, x_n;\hat\theta)=maxL(x_1, x_2.…, x_n;\theta) L(x1,x2.,xn;θ^)=maxL(x1,x2.,xn;θ)这样得到的 θ ^ \hat\theta θ^与样本值有关, θ ^ ( x 1 , x 2. … , x 1 ) \hat\theta(x1,x2.…,x1) θ^(x1x2.x1)称为参数 θ \theta θ的极大似然估计值,其相应的统计量 θ ^ ( X 1 , X 2 … , X 1 ) \hat\theta(X_1,X_2…,X_1) θ^(X1X2X1)称为 θ \theta θ的极大似然估计量。极大似然估计简记为MLE或 θ ^ \hat\theta θ^
问题是如何把参数 θ \theta θ的极大似然估计 θ ^ \hat\theta θ^求出。更多场合是利用 l n L ( θ ) lnL(\theta) lnL(θ) L ( θ ) L(\theta) L(θ)的增函数,故 l n L ( θ ) lnL(\theta) lnL(θ) L ( θ ) L(\theta) L(θ)在同一点处达到最大值,于是对似然函数 L ( θ ) L(\theta) L(θ)取对数,利用微分学知识转化为求解对数似然方程 ∂ l n L ( θ ) ∂ θ j = 0 , j = 1 , 2 , . . . , n \frac{\partial lnL(\theta)}{\partial\theta_j} = 0, j=1, 2, ..., n θjlnL(θ)=0,j=1,2,...,n解此方程并对解做进一步的判断。但由最值原理,如果最值存在,此方程组求得的驻点即为所求的最值点,就可以很到参数的极大似然估计。极大似然估计法一般属于这种情况,所以可以直接按上述步骤求极大似然估计。

关于先验概率、后验概率、似然估计、条件概率:
先验分布:根据一般的经验认为随机变量应该满足的分布,eg:根据往年的气候经验(经验),推测下雨(结果)的概率即为先验概率;
后验分布:通过当前训练数据修正的随机变量的分布,比先验分布更符合当前数据,eg: 有乌云(原因、观测数据)的时候下雨(结果)的概率即为后验概率;
似然估计:已知训练数据,给定了模型(已知概率分布),通过让似然性极大化估计模型参数的一种方法,eg: 下雨(结果)的时候有乌云(观测数据、原因等)的概率即为似然概率;
后验分布往往是基于先验分布和极大似然估计计算出来的。
&ThickSpace; \;
贝叶斯公式(后验概率公式、逆概率公式):
在这里插入图片描述
Θ:决定数据分布的参数(原因)
x: 观察得到的数据(结果)
p(x): 证据因子evidence
p(Θ): 先验概率
p(Θ|x): 后验概率
p(x|Θ): 似然概率
&ThickSpace; \;
后验概率=似然函数×先验概率/证据因子,证据因子(Evidence,也被称为归一化常数)可仅看成一个权值因子,以保证各类别的后验概率总和为1从而满足概率条件。
&ThickSpace; \;
注:
联合概率: P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(BA)=P(B)P(AB)
条件概率: P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)={P(AB)\over P(B)} P(AB)=P(B)P(AB)
贝叶斯公式: P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)={P(A|B)P(B) \over P(A)} P(BA)=P(A)P(AB)P(B)

对逻辑回归:
二分类任务可看作做了n次独立同分布试验的二项分布。
已知总体概率分布:
P ( y ∣ x ; ω ) = { Φ ( X ) , if y=1 1 − Φ ( X ) , if y=0 P(y|x; \omega)= \begin{cases} \Phi(X), &amp; \text{if y=1} \\[2ex] 1-\Phi(X), &amp; \text{if y=0} \end{cases} P(yx;ω)=Φ(X),1Φ(X),if y=1if y=0上式可改写为:
P ( y ∣ x ; ω ) = Φ ( X ) y ( 1 − Φ ( X ) ) ( 1 − y ) P(y|x; \omega)=\Phi(X)^y(1-\Phi(X))^{(1-y)} P(yx;ω)=Φ(X)y(1Φ(X))(1y)因此,联合概率密度为:
L ( ω ) = ∏ i = 1 n p ( y ( i ) ∣ θ , ω ) = ∏ i = 1 n Φ ( X ( i ) ) y ( i ) ( 1 − Φ ( X ( i ) ) ) ( 1 − y ( i ) ) L(\omega)=\prod_{i=1}^np(y^{(i)}|\theta, \omega) =\prod_{i=1}^n\Phi(X^{(i)})^{y^{(i)}}(1-\Phi(X^{(i)}))^{(1-y^{(i)})} L(ω)=i=1np(y(i)θ,ω)=i=1nΦ(X(i))y(i)(1Φ(X(i)))(1y(i))取对数可得:
l ( ω ) = ∑ i = 1 n l n p ( y ( i ) ∣ θ , ω ) = ∑ i = 1 n y ( i ) l n [ Φ ( X ( i ) ) ] + ( 1 − y ( i ) ) l n [ ( 1 − Φ ( X ( i ) ) ) ] l(\omega)=\sum_{i=1}^nlnp(y^{(i)}|\theta, \omega) =\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))] l(ω)=i=1nlnp(y(i)θ,ω)=i=1ny(i)ln[Φ(X(i))]+(1y(i))ln[(1Φ(X(i)))]
L ( ω ) L(\omega) L(ω)求极大值,可求出最有可能的 ω \omega ω
由于该函数是凸函数,故可采用数值优化算法如梯度下降法、牛顿法求其最优解。

以下采用梯度下降法:

J ( θ ) = − l ( ω ) = − ∑ i = 1 n y ( i ) l n [ Φ ( X ( i ) ) ] + ( 1 − y ( i ) ) l n [ ( 1 − Φ ( X ( i ) ) ) ] J(\theta) = -l(\omega)=-\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))] J(θ)=l(ω)=i=1ny(i)ln[Φ(X(i))]+(1y(i))ln[(1Φ(X(i)))]
∂ J ( θ ) ∂ θ j = − ∑ i = 1 n [ y ( i ) 1 Φ ( X ( i ) ) − ( 1 − y ( i ) ) 1 ( 1 − Φ ( X ( i ) ) ) ] ∂ Φ ( X ( i ) ) ∂ θ j \frac{\partial J(\theta)}{\partial\theta_j} = -\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\frac{\partial \Phi(X^{(i)})}{\partial\theta_j} θjJ(θ)=i=1n[y(i)Φ(X(i))1(1y(i))(1Φ(X(i)))1]θjΦ(X(i))
由于对于sigmoid函数:
Φ ′ ( X ) = Φ ( X ) ( 1 − Φ ( X ) ) \Phi&#x27;(X)=\Phi(X)(1-\Phi(X)) Φ(X)=Φ(X)(1Φ(X))
∂ ( ω T x + b ) ∂ ω = x \frac{\partial (\omega^Tx+b)}{\partial \omega} = x ω(ωTx+b)=x
故:
= − ∑ i = 1 n [ y ( i ) 1 Φ ( X ( i ) ) − ( 1 − y ( i ) ) 1 ( 1 − Φ ( X ( i ) ) ) ] Φ ( X ( i ) ) ( 1 − Φ ( X ( i ) ) ) ∂ X ( i ) ∂ θ j =-\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\Phi(X^{(i)})(1-\Phi(X^{(i)}))\frac{\partial X^{(i)}}{\partial\theta_j} =i=1n[y(i)Φ(X(i))1(1y(i))(1Φ(X(i)))1]Φ(X(i))(1Φ(X(i)))θjX(i)
= − ∑ i = 1 n [ y ( i ) ( 1 − Φ ( X ( i ) ) ) − ( 1 − y ( i ) ) Φ ( X ( i ) ) ] x j ( i ) =-\sum_{i=1}^n[y^{(i)}(1-\Phi(X^{(i)}))-(1-y^{(i)})\Phi(X^{(i)})]x^{(i)}_j =i=1n[y(i)(1Φ(X(i)))(1y(i))Φ(X(i))]xj(i)
从而得到:
θ j : = θ j + η ∑ i = 1 n ( y ( i ) − Φ ( X ( i ) ) ) x j ( i ) \theta_j:=\theta_j+\eta\sum_{i=1}^n(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j θj:=θj+ηi=1n(y(i)Φ(X(i)))xj(i)
随机梯度下降:
θ j : = θ j + η ( y ( i ) − Φ ( X ( i ) ) ) x j ( i ) , f o r &ThickSpace; i &ThickSpace; i n &ThickSpace; r a n g e ( n ) \theta_j:=\theta_j+\eta(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j,for\;i\;in\;range(n) θj:=θj+η(y(i)Φ(X(i)))xj(i)foriinrange(n)

  • 5
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值