基本概念:总体,样本,统计量
总体:试验的全部可能值,使用
X
X
表示
样本:通过一定规则(放回抽样,不放回抽样)抽取得到一个样本或者一组样本。
一个个抽取得到的每一个特体也成为一个样本;一次抽取n个得到一组样本,n称为样本容量。
样本也看做是一个 随机向量 表示。
- 在抽样实施之前,把样本看做随机变量,便于研究;
- 在抽样实施之后,得到一组随机变量的观测值,这时样本是一组数 (x1,x2,...,xn) ( x 1 , x 2 , . . . , x n ) 。
样本既是一个随机向量,又是一组数。
总体X是具有分布函数F的随机变量,
(X1,X2,X3,...,Xn)
(
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
)
是具有分布函数F的独立同分布的随机变量。
样本(随机向量)
(X1,X2,X3,...,Xn)
(
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
)
的分布函数
F(x1,x2,...,xn)
F
(
x
1
,
x
2
,
.
.
.
,
x
n
)
为
如果 X X 的概率密度函数为,则样本(随机向量) (X1,X2,X3,...,Xn) ( X 1 , X 2 , X 3 , . . . , X n ) 的概率密度函数为
统计量
刻画总体某些参数,统计量是样本的函数。
比如知道总体是正态分布但是
μ
μ
,
σ
σ
未知,这时我们从总体中抽取一组样本,对样本分析,得到一个适当的统计量
μ^
μ
^
,
σ^
σ
^
估计总体的
μ
μ
,
σ
σ
。
为什么能够使用统计量近似真实的未知量?因为有大数定律。
通常情况,统计量使用
θ^(θ1,θ2,...,θn)
θ
^
(
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
表示有n个未知参量。如上述
μ^
μ
^
,
σ^
σ
^
,令
θ1=μ^
θ
1
=
μ
^
,
θ2=σ^
θ
2
=
σ
^
.
统计量是一个确定的数。
统计量是一个随机变量,因为样本具有随机性,所以统计量有概率分布。比如(随机向量)
(X1,X2,X3,...,Xn)
(
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
)
是总体
X∼N(μ,σ2)
X
∼
N
(
μ
,
σ
2
)
的一个样本,则统计量
x¯∼N(μ,σ2)
x
¯
∼
N
(
μ
,
σ
2
)
。
极大似然估计
参数估计包括了矩估计和极大似然估计,这里只介绍极大似然估计。
样本是总体的一个随机抽样,每个样本是独立的,与总体同分布的。
对于总体X,如果随机变量是连续的,概率密度函数为
f(x;θ)
f
(
x
;
θ
)
,对于其样本(
x1,x2,x3,...,xn
x
1
,
x
2
,
x
3
,
.
.
.
,
x
n
),令L作为
θ
θ
的函数就是似然函数,
通常情况下,取对数
要求上式的最值,也就是求多元函数极值的问题。
可以用泰勒展开再根据极值定理求解,或者将其转为矩阵形式,用正定二次型来判断。
步骤:
例子一
X∼N(μ,σ2)
X
∼
N
(
μ
,
σ
2
)
,求
μ
μ
,
σ2
σ
2
的极大似然估计。
分析:
总体服从
μ
μ
,
σ2
σ
2
的连续分布,可以写出总体的概率密度函数
样本( x1,x2,x3,...,xn x 1 , x 2 , x 3 , . . . , x n )的概率密度函数为
用
θ1
θ
1
,
θ2
θ
2
代替
μ
μ
,
σ
σ
,写出似然函数
取对数
使用极值定理求参数值,求导并令其导数值为0.
代入 θ1=x¯ θ 1 = x ¯ 得
例子二
例子三
先写出似然函数
求极值点并验证是否为最值。
参考:
概率论与数理统计 https://www.bilibili.com/video/av17582696/
最大概似法 https://www.youtube.com/watch?v=t_KUThpWWcY
StatQuest: Maximum Likelihood: https://www.youtube.com/watch?v=XepXtl9YKwc
StatQuest: Maximum Likelihood Example https://www.youtube.com/watch?v=cDlNsHUBmw4