概率论基础知识(三) 参数估计
1、矩
矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。
矩是更具有一般意义的数字特征。
设有随机变量X,若 E ( ∣ X ∣ k ) < + ∞ E(|X|^k)<+\infty E(∣X∣k)<+∞(即:存在且有限),则称 α k = E ( X k ) \alpha_k=E(X^k) αk=E(Xk),k=1, 2, …是X的k阶原点矩。
若E(X)存在,且 E ( ∣ X − E X ∣ k ) < + ∞ E(|X-EX|^k)<+\infty E(∣X−EX∣k)<+∞,则称 β k = E ( X − E X ) k ,    k = 1 , 2 , . . . \beta_k=E(X-EX)^k,\; k=1,2, ... βk=E(X−EX)k,k=1,2,...是X的k阶中心矩。
期望EZ:一阶原点矩
方差DZ:二阶中心距
高阶矩存在,则低阶矩显然存在。
2、点估计之矩估计
点估计
设总体的分布函数为
F
(
x
,
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
F(x, \theta_1, \theta_2, ... , \theta_k)
F(x,θ1,θ2,...,θk)(分布已确定,有未知参数),以样本
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ... , X_n
X1,X2,...,Xn对未知参数
θ
i
(
i
=
1
,
2
,
.
.
.
,
n
)
\theta_i(i=1, 2, ... , n)
θi(i=1,2,...,n)构造一个合适的统计量:
θ
^
i
=
θ
^
i
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat\theta_i=\hat\theta_i(X_1, X_2, ... , X_n)
θ^i=θ^i(X1,X2,...,Xn)每当有一组具体的样本值
x
1
,
x
2
,
.
.
.
,
x
n
x_1, x_2, ... , x_n
x1,x2,...,xn,将一个数值
θ
^
i
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat\theta_i(X_1, X_2, ... , X_n)
θ^i(X1,X2,...,Xn)作为
θ
i
\theta_i
θi的估计(点估计)。
简单来说,就是已知总体分布,由样本推断未知参数。
矩估计
以样本矩作为总体矩的估计。
总体矩:
a
k
=
E
X
k
,
b
k
=
E
(
X
−
E
X
)
k
a_k=EX^k, b_k=E(X-EX)^k
ak=EXk,bk=E(X−EX)k
样本矩:
α
k
=
1
n
∑
i
=
1
n
X
i
k
,
β
k
=
1
n
∑
i
=
1
n
(
X
i
−
X
^
)
k
\alpha_k={1 \over n}\sum_{i=1}^nX_i^k, \beta_k={1 \over n}\sum_{i=1}^n(X_i-\hat X)^k
αk=n1i=1∑nXik,βk=n1i=1∑n(Xi−X^)k
由大数定律可知:
α
k
→
a
k
,
β
k
→
b
k
\alpha_k\to a_k, \beta_k\to b_k
αk→ak,βk→bk
3、点估计之极大似然估计法
基本思想:最大可能性原则(似然即是可能性)
设总体分布已知p(x),含有一个或n个未知参数
θ
1
,
θ
2
,
.
.
.
,
θ
n
\theta_1, \theta_2, ... , \theta_n
θ1,θ2,...,θn
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ... , X_n
X1,X2,...,Xn为来自该总体的样本;
x
1
,
x
2
,
.
.
.
,
x
n
x_1, x_2, ... , x_n
x1,x2,...,xn是样本的观测值。
这相当于事件 X 1 = x 1 , X 2 = x 2 , . . . , X n = x n {X_1=x_1, X_2=x_2, ... , X_n=x_n} X1=x1,X2=x2,...,Xn=xn是最可能发生的事件,我们认为它有最大概率。
样本的(联合)概率密度:
∏
i
=
1
n
p
(
x
,
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
=
L
(
x
1
,
.
.
.
,
x
n
,
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
\prod_{i=1}^np(x, \theta_1, \theta_2, ... , \theta_n)=L(x_1, ... , x_n, \theta_1, \theta_2, ... , \theta_n)
∏i=1np(x,θ1,θ2,...,θn)=L(x1,...,xn,θ1,θ2,...,θn)
联合概率密度主要采用微积分方法求解:概率统计“搭台”,微积分“唱戏”。
使似然函数L取到最大值的 θ ^ 1 , θ ^ 2 , . . . , θ ^ n \hat\theta_1, \hat\theta_2, ... , \hat\theta_n θ^1,θ^2,...,θ^n称为未知参数 θ 1 , θ 2 , . . . , θ n \theta_1, \theta_2, ... , \theta_n θ1,θ2,...,θn的极大似然估计值。
简单来说,就是:
认为观测值是最有可能发生的样本,故:使其联合概率密度函数最大化时求出的
θ
\theta
θ是产生当前结果最有可能的
θ
\theta
θ。
1、若总体X为离散型,其概率分布列为
P ( X = x ) = p ( x ; θ ) P(X=x)=p(x; \theta) P(X=x)=p(x;θ)其中 θ \theta θ为未知参数。设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.…,Xn)是取自总体的样本容量为n的样本,则 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.…,Xn)的联合分布律为 ∏ i = 1 n p ( x i , θ ) \prod_{i=1}^np(x_i, \theta) ∏i=1np(xi,θ)。又设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.…,Xn)的一组观测值为 ( x 1 , x 2 . … , x n ) (x_1, x_2.…, x_n) (x1,x2.…,xn),易知样本 X 1 , X 2 . … , X n X_1, X_2.…, X_n X1,X2.…,Xn取到观测值 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.…,xn的概率为:
L ( θ ) = L ( x 1 , x 2 . … , x n ; θ ) = ∏ i = 1 n p ( x i , θ ) L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^np(x_i, \theta) L(θ)=L(x1,x2.…,xn;θ)=i=1∏np(xi,θ)这一概率随 θ \theta θ的取值而变化,它是 θ \theta θ的函数,称 L ( θ ) L(\theta) L(θ)为样本的似然函数。
2、若总体X为连续型,其概率密度函数为 f ( x ; θ ) f(x; \theta) f(x;θ),其中 θ \theta θ为未知参数。设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.…,Xn)是取自总体的样本容量为n的简单样本,则 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.…,Xn)的联合概率密度函数为 ∏ i = 1 n f ( x i , θ ) \prod_{i=1}^nf(x_i, \theta) ∏i=1nf(xi,θ)。又设 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.…,Xn)的一组观测值为 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.…,xn,则随机点 ( X 1 , X 2 . … , X n ) (X_1, X_2.…, X_n) (X1,X2.…,Xn)落在点 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.…,xn的邻边(边长分别为 d x 1 , d x 2 , … , d x n dx_1, dx_2, …, dx_n dx1,dx2,…,dxn的n维立方体)内的概率近似地为 ∏ i = 1 n f ( x i , θ ) d x i \prod_{i=1}^nf(x_i, \theta)dx_i ∏i=1nf(xi,θ)dxi。
考虑函数
L ( θ ) = L ( x 1 , x 2 . … , x n ; θ ) = ∏ i = 1 n f ( x i , θ ) L(\theta)=L(x_1, x_2.…, x_n;\theta)=\prod_{i=1}^nf(x_i, \theta) L(θ)=L(x1,x2.…,xn;θ)=i=1∏nf(xi,θ)
同样, L ( θ ) L(\theta) L(θ)称为样本的似然函数。
极大似然估计法原理就是固定样本观测值 x 1 , x 2 . … , x n x_1, x_2.…, x_n x1,x2.…,xn,挑选参数 θ \theta θ使 L ( x 1 , x 2 . … , x n ; θ ^ ) = m a x L ( x 1 , x 2 . … , x n ; θ ) L(x_1, x_2.…, x_n;\hat\theta)=maxL(x_1, x_2.…, x_n;\theta) L(x1,x2.…,xn;θ^)=maxL(x1,x2.…,xn;θ)这样得到的 θ ^ \hat\theta θ^与样本值有关, θ ^ ( x 1 , x 2. … , x 1 ) \hat\theta(x1,x2.…,x1) θ^(x1,x2.…,x1)称为参数 θ \theta θ的极大似然估计值,其相应的统计量 θ ^ ( X 1 , X 2 … , X 1 ) \hat\theta(X_1,X_2…,X_1) θ^(X1,X2…,X1)称为 θ \theta θ的极大似然估计量。极大似然估计简记为MLE或 θ ^ \hat\theta θ^。
问题是如何把参数 θ \theta θ的极大似然估计 θ ^ \hat\theta θ^求出。更多场合是利用 l n L ( θ ) lnL(\theta) lnL(θ)是 L ( θ ) L(\theta) L(θ)的增函数,故 l n L ( θ ) lnL(\theta) lnL(θ)与 L ( θ ) L(\theta) L(θ)在同一点处达到最大值,于是对似然函数 L ( θ ) L(\theta) L(θ)取对数,利用微分学知识转化为求解对数似然方程 ∂ l n L ( θ ) ∂ θ j = 0 , j = 1 , 2 , . . . , n \frac{\partial lnL(\theta)}{\partial\theta_j} = 0, j=1, 2, ..., n ∂θj∂lnL(θ)=0,j=1,2,...,n解此方程并对解做进一步的判断。但由最值原理,如果最值存在,此方程组求得的驻点即为所求的最值点,就可以很到参数的极大似然估计。极大似然估计法一般属于这种情况,所以可以直接按上述步骤求极大似然估计。
关于先验概率、后验概率、似然估计、条件概率:
先验分布:根据一般的经验认为随机变量应该满足的分布,eg:根据往年的气候经验(经验),推测下雨(结果)的概率即为先验概率;
后验分布:通过当前训练数据修正的随机变量的分布,比先验分布更符合当前数据,eg: 有乌云(原因、观测数据)的时候下雨(结果)的概率即为后验概率;
似然估计:已知训练数据,给定了模型(已知概率分布),通过让似然性极大化估计模型参数的一种方法,eg: 下雨(结果)的时候有乌云(观测数据、原因等)的概率即为似然概率;
后验分布往往是基于先验分布和极大似然估计计算出来的。
   \;
贝叶斯公式(后验概率公式、逆概率公式):
Θ:决定数据分布的参数(原因)
x: 观察得到的数据(结果)
p(x): 证据因子evidence
p(Θ): 先验概率
p(Θ|x): 后验概率
p(x|Θ): 似然概率
   \;
后验概率=似然函数×先验概率/证据因子,证据因子(Evidence,也被称为归一化常数)可仅看成一个权值因子,以保证各类别的后验概率总和为1从而满足概率条件。
   \;
注:
联合概率: P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(B∣A)=P(B)P(A∣B)
条件概率: P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)={P(AB)\over P(B)} P(A∣B)=P(B)P(AB)
贝叶斯公式: P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)={P(A|B)P(B) \over P(A)} P(B∣A)=P(A)P(A∣B)P(B)
对逻辑回归:
二分类任务可看作做了n次独立同分布试验的二项分布。
已知总体概率分布:
P
(
y
∣
x
;
ω
)
=
{
Φ
(
X
)
,
if y=1
1
−
Φ
(
X
)
,
if y=0
P(y|x; \omega)= \begin{cases} \Phi(X), & \text{if y=1} \\[2ex] 1-\Phi(X), & \text{if y=0} \end{cases}
P(y∣x;ω)=⎩⎨⎧Φ(X),1−Φ(X),if y=1if y=0上式可改写为:
P
(
y
∣
x
;
ω
)
=
Φ
(
X
)
y
(
1
−
Φ
(
X
)
)
(
1
−
y
)
P(y|x; \omega)=\Phi(X)^y(1-\Phi(X))^{(1-y)}
P(y∣x;ω)=Φ(X)y(1−Φ(X))(1−y)因此,联合概率密度为:
L
(
ω
)
=
∏
i
=
1
n
p
(
y
(
i
)
∣
θ
,
ω
)
=
∏
i
=
1
n
Φ
(
X
(
i
)
)
y
(
i
)
(
1
−
Φ
(
X
(
i
)
)
)
(
1
−
y
(
i
)
)
L(\omega)=\prod_{i=1}^np(y^{(i)}|\theta, \omega) =\prod_{i=1}^n\Phi(X^{(i)})^{y^{(i)}}(1-\Phi(X^{(i)}))^{(1-y^{(i)})}
L(ω)=i=1∏np(y(i)∣θ,ω)=i=1∏nΦ(X(i))y(i)(1−Φ(X(i)))(1−y(i))取对数可得:
l
(
ω
)
=
∑
i
=
1
n
l
n
p
(
y
(
i
)
∣
θ
,
ω
)
=
∑
i
=
1
n
y
(
i
)
l
n
[
Φ
(
X
(
i
)
)
]
+
(
1
−
y
(
i
)
)
l
n
[
(
1
−
Φ
(
X
(
i
)
)
)
]
l(\omega)=\sum_{i=1}^nlnp(y^{(i)}|\theta, \omega) =\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))]
l(ω)=i=1∑nlnp(y(i)∣θ,ω)=i=1∑ny(i)ln[Φ(X(i))]+(1−y(i))ln[(1−Φ(X(i)))]
对
L
(
ω
)
L(\omega)
L(ω)求极大值,可求出最有可能的
ω
\omega
ω。
由于该函数是凸函数,故可采用数值优化算法如梯度下降法、牛顿法求其最优解。
以下采用梯度下降法:
令
J
(
θ
)
=
−
l
(
ω
)
=
−
∑
i
=
1
n
y
(
i
)
l
n
[
Φ
(
X
(
i
)
)
]
+
(
1
−
y
(
i
)
)
l
n
[
(
1
−
Φ
(
X
(
i
)
)
)
]
J(\theta) = -l(\omega)=-\sum_{i=1}^ny^{(i)}ln[\Phi(X^{(i)})]+(1-y^{(i)})ln[(1-\Phi(X^{(i)}))]
J(θ)=−l(ω)=−i=1∑ny(i)ln[Φ(X(i))]+(1−y(i))ln[(1−Φ(X(i)))]
∂
J
(
θ
)
∂
θ
j
=
−
∑
i
=
1
n
[
y
(
i
)
1
Φ
(
X
(
i
)
)
−
(
1
−
y
(
i
)
)
1
(
1
−
Φ
(
X
(
i
)
)
)
]
∂
Φ
(
X
(
i
)
)
∂
θ
j
\frac{\partial J(\theta)}{\partial\theta_j} = -\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\frac{\partial \Phi(X^{(i)})}{\partial\theta_j}
∂θj∂J(θ)=−i=1∑n[y(i)Φ(X(i))1−(1−y(i))(1−Φ(X(i)))1]∂θj∂Φ(X(i))
由于对于sigmoid函数:
Φ
′
(
X
)
=
Φ
(
X
)
(
1
−
Φ
(
X
)
)
\Phi'(X)=\Phi(X)(1-\Phi(X))
Φ′(X)=Φ(X)(1−Φ(X))
∂
(
ω
T
x
+
b
)
∂
ω
=
x
\frac{\partial (\omega^Tx+b)}{\partial \omega} = x
∂ω∂(ωTx+b)=x
故:
=
−
∑
i
=
1
n
[
y
(
i
)
1
Φ
(
X
(
i
)
)
−
(
1
−
y
(
i
)
)
1
(
1
−
Φ
(
X
(
i
)
)
)
]
Φ
(
X
(
i
)
)
(
1
−
Φ
(
X
(
i
)
)
)
∂
X
(
i
)
∂
θ
j
=-\sum_{i=1}^n[y^{(i)}{1\over \Phi(X^{(i)})}-(1-y^{(i)}){1\over (1-\Phi(X^{(i)}))}]\Phi(X^{(i)})(1-\Phi(X^{(i)}))\frac{\partial X^{(i)}}{\partial\theta_j}
=−i=1∑n[y(i)Φ(X(i))1−(1−y(i))(1−Φ(X(i)))1]Φ(X(i))(1−Φ(X(i)))∂θj∂X(i)
=
−
∑
i
=
1
n
[
y
(
i
)
(
1
−
Φ
(
X
(
i
)
)
)
−
(
1
−
y
(
i
)
)
Φ
(
X
(
i
)
)
]
x
j
(
i
)
=-\sum_{i=1}^n[y^{(i)}(1-\Phi(X^{(i)}))-(1-y^{(i)})\Phi(X^{(i)})]x^{(i)}_j
=−i=1∑n[y(i)(1−Φ(X(i)))−(1−y(i))Φ(X(i))]xj(i)
从而得到:
θ
j
:
=
θ
j
+
η
∑
i
=
1
n
(
y
(
i
)
−
Φ
(
X
(
i
)
)
)
x
j
(
i
)
\theta_j:=\theta_j+\eta\sum_{i=1}^n(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j
θj:=θj+ηi=1∑n(y(i)−Φ(X(i)))xj(i)
随机梯度下降:
θ
j
:
=
θ
j
+
η
(
y
(
i
)
−
Φ
(
X
(
i
)
)
)
x
j
(
i
)
,
f
o
r
  
i
  
i
n
  
r
a
n
g
e
(
n
)
\theta_j:=\theta_j+\eta(y^{(i)}-\Phi(X^{(i)}))x^{(i)}_j,for\;i\;in\;range(n)
θj:=θj+η(y(i)−Φ(X(i)))xj(i),foriinrange(n)