1.矩估计
1.1矩估计思想:
矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩
1.2矩估计理论:
矩估计的理论依据就是基于大数定律的,大数定律语言化表述为:当总体的k阶矩存在时,样本的k阶矩依概率收敛于总体的k阶矩,即当抽取的样本数量n充分大的时候,样本矩将约等于总体矩。
1.3矩
令k为正整数或0,a为任意实数,X为随机变量。则期望值
E
(
x
−
a
)
k
E(x-a)^k
E(x−a)k,叫做随机变量X对a的k阶矩。如果有a=0,则
E
(
x
)
k
E(x)^k
E(x)k叫做k阶原点矩,也叫k阶矩。
1.4矩的计算方法
样本k阶原点矩
A
k
=
1
/
n
∑
i
=
1
n
X
i
k
A_k=1/n\sum_{i=1}^{n}X_i^k
Ak=1/n∑i=1nXik ===>> 总体k阶原点矩
μ
k
=
E
(
X
k
)
\mu_k=E(X^k)
μk=E(Xk)
样本k阶中心矩
B
k
=
1
/
n
∑
i
=
1
n
(
X
i
−
X
‾
)
k
B_k=1/n\sum_{i=1}^{n}(X_i-\overline{X})^k
Bk=1/n∑i=1n(Xi−X)k ===>>总体k阶原点矩
m
k
=
E
(
[
X
−
E
(
X
)
]
k
)
m_k=E([ X-E(X)]^k)
mk=E([X−E(X)]k)
即令样本k阶矩与总体k阶矩相等 (ps:矩估计理论)
1.5例子
设X的概率分布为
X | -1 | 0 | 1 |
---|---|---|---|
P | θ | 1-θ | θ |
求解过程如下:
利用样本矩=总体矩求解:
−
1
+
0
+
0
+
1
+
1
5
=
−
1
∗
θ
+
0
∗
(
1
−
θ
)
+
1
∗
θ
\frac{-1+0+0+1+1}{5}=-1*θ+0*(1-θ)+1*θ
5−1+0+0+1+1=−1∗θ+0∗(1−θ)+1∗θ
由于等式右侧为0,所以一阶矩失效。因此求二阶矩:
−
1
2
+
0
2
+
0
2
+
1
2
+
1
2
5
=
(
−
1
)
2
∗
θ
+
0
2
∗
(
1
−
θ
)
+
1
2
∗
θ
\frac{-1^2+0^2+0^2+1^2+1^2}{5}=(-1)^2*θ+0^2*(1-θ)+1^2*θ
5−12+02+02+12+12=(−1)2∗θ+02∗(1−θ)+12∗θ求解可得θ=
3
10
\frac{3}{10}
103。
对于连续型函数,矩估计依然这样求解,这里不再多说了。
矩估计的优缺点:
优点:此法简单易行,不需要事先知道总体是什么分布。(仅需按照均值和方差计算即可)。
缺点:总体类型已知时,未充分利用提供的分布信息,有些情况下,矩估计的量不唯一(样本矩近似总体矩有一定的随意性)。
2.极大似然估计(maximum likelihood estimation ,MLE)
2.1似然函数
再说极大似然估计之前先说一下似然函数。在概率论中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。“似然性”与”概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。在这种意义上,似然函数可以理解为条件概率的逆反。在已知某个参数B时,事件A会发生的概率写作
利用贝叶斯定理,
因此,我们可以反过来构造表示似然性的方法:已知有事件A发生,运用似然函数L(B|A),我们估计参数B的可能性。形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了:此处关注的是影响B的参数大小。
2.2极大似然估计的目的
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
2.3原理
极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
2.4极大似然估计求解
记已知一个独立同分布的样本集为D{
X
1
,
X
2
,
X
3
,
⋯
,
X
n
X_1,X_2,X_3,\cdots,X_n
X1,X2,X3,⋯,Xn},已知其概率密度函数(连续分布)或概率质量函数(离散分布)为
f
d
f_d
fd,以及一个分布参数
θ
\theta
θ ,我们可以写严概率为.P{
X
1
,
X
2
,
X
3
,
⋯
,
X
n
X_1,X_2,X_3,\cdots,X_n
X1,X2,X3,⋯,Xn}=
f
d
f_d
fd{
X
1
,
X
2
,
X
3
,
⋯
,
X
n
X_1,X_2,X_3,\cdots,X_n
X1,X2,X3,⋯,Xn
∣
\rvert
∣
θ
\theta
θ}.
所以似然函数(linkehood function):联合概率密度函数
f
d
f_d
fd称为相对于{
X
1
,
X
2
,
X
3
,
⋯
,
X
n
X_1,X_2,X_3,\cdots,X_n
X1,X2,X3,⋯,Xn}的θ的似然函数。
记为 L(θ)=P{
X
1
,
X
2
,
X
3
,
⋯
,
X
n
X_1,X_2,X_3,\cdots,X_n
X1,X2,X3,⋯,Xn}=
∏
i
=
1
n
P
(
x
i
∣
θ
)
\prod_{i=1}^{n}P(x_i|θ)
∏i=1nP(xi∣θ)
如果
θ
^
\hat{θ}
θ^是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量
2.4.1求解L(θ)
求使得出现该组样本的概率最大的θ值
实际中为了便于计算,定义了对数似然函数(与线性函数单调性一致,取极值的时候点一样,且偏导时又方便计算)
未知参数只有一个(θ为标量),对θ求偏导令其为0求解即可得到
θ
^
\hat{θ}
θ^的值。即
一般都是利用对数似然计算(简化计算且不影响
θ
^
\hat{θ}
θ^的值)。
2.5总结
似然函数直接求导一般不太好求,一般得到似然函数L(θ)之后,都是先求它的对数,即ln L(θ),因为ln函数不会改变L的单调性,且计算更为简单,然后对ln L(θ)求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理为似然估计是已知结果去求未知参数,对于已经发生的结果(一般是一系列的样本值),既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.
求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数;
(3)求导数;
(4)解似然方程。
最大似然估计的特点:
1.比其他估计方法更加简单;
2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;
3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。