概率论与数理统计B 重点/笔记梳理 第七章

第七章 参数估计


前面第5、6章我们了解到了数理统计如何与概率论联系起来(第五章)以及一些基本定理、抽样方法(第六章)。数理统计的话,其就是充分利用已经有的 数据或者是 数字特征来进行对于整体 数据或者 数字特征的估计。

其中主要有两类问题:

  1. 总体分布函数已经知道,若干参数未知,eg:我知道是正态分布,但是未知参数u和s我不清楚该怎么办;
  2. 总体分布函数未知,但是若干数据特征我知道,eg:我知道其中某些数字特征,比如说:数学期望,方差;

第一节 点估计

第五章的大数定律告诉我们:当样本足够大的时候,我们可以用样本来估计总体,点估计就是一种已知样本分估计的参数的过程。

1.点估计

点估计:我们通常可以按照矩的阶数从1到k列出k个样本等于总体矩的方程,从而求出带求的参数,aka:数字特征法

我们现在有一个分布函数:
F ( x ; θ 1 , θ 2 , . . . , θ n ) F(x;\theta_1,\theta_2,...,\theta_n) F(x;θ1,θ2,...,θn)
假设
( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)
是取自X的样本,那么如果总体K阶原点矩E(Xk)存在,则总体X的j阶原点矩为
α i ( θ 1 , θ 2 , . . . , θ n ) = E ( X j ) , 1 ≤ j ≤ k \alpha_i(\theta_1,\theta_2,...,\theta_n)=E(X^j),1\le j\le k αi(θ1,θ2,...,θn)=E(Xj),1jk
样本(x1,x2,…,xn)的j阶原点矩为:
A j = 1 n ∑ x i j A_j=\frac{1}{n}\sum x^j_i Aj=n1xij
令总体矩阵等于对应的样本矩,可以得到k个方程(多少个参数就有多少个方程):
α j ( θ 1 , θ 2 , . . . , θ k ) = A j ( 1 ≤ j ≤ k ) \alpha_j(\theta_1,\theta_2,...,\theta_k)=A_j(1\le j \le k) αj(θ1,θ2,...,θk)=Aj(1jk)
也就是说,一般来说总体的分布特征会告诉你,然后求出对应的原点矩(一阶矩就是期望)后,你计算一下对应样本矩。

2.极大似然估计

极大似然估计:假设总体的密度函数为
f ( x ; θ 1 , θ 2 , . . . , θ i ) f(x;\theta_1,\theta_2,...,\theta_i) f(x;θ1,θ2,...,θi)
其中theta均为未知参数,x1、x2、、、xn为来自总体X的样本,他们的联合密度函数为:
L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ l ) = ∏ i = 1 n f ( x i ; θ 1 , θ 2 , . . . , θ n ) L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=\prod_{i=1}^{n}f(x_i;\theta_1,\theta_2,...,\theta_n) L(x1,x2,...,xn;θ1,θ2,...,θl)=i=1nf(xi;θ1,θ2,...,θn)
上面的密度函数为所有参数的似然函数。

如果说我可以找到一组参数组合使得似然函数最大,那么说明:这组参数最能够让这组样本代表这个总体

计算技巧:

对于
L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ l ) = ∏ i = 1 n f ( x i ; θ 1 , θ 2 , . . . , θ n ) L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=\prod_{i=1}^{n}f(x_i;\theta_1,\theta_2,...,\theta_n) L(x1,x2,...,xn;θ1,θ2,...,θl)=i=1nf(xi;θ1,θ2,...,θn)
两边同时取得对数,那么可以得到
ln ⁡ L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ l ) = ∑ i = 1 n ln ⁡ f ( x i ; θ 1 , θ 2 , . . . , θ n ) \ln L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=\sum_{i=1}^{n}\ln f(x_i;\theta_1,\theta_2,...,\theta_n) lnL(x1,x2,...,xn;θ1,θ2,...,θl)=i=1nlnf(xi;θ1,θ2,...,θn)
随后分别对每一个参数进行求偏导并令偏导数=0,最后就可以得到一个参数组合,该参数组合便是所求的极大似然估计量

3.稳健估计(不考,懒得做笔记了QAQ)

第二节 估计量的评判标准

1.无偏性

假设
θ \theta θ
是总体参数,那么用统计量
θ i ′ = θ i ′ ( x 1 , x 2 , . . . , x n ) ( θ i ′ 是 一 个 关 于 样 本 值 的 函 数 ) \theta'_i=\theta'_i(x_1,x_2,...,x_n)(\theta_i'是一个关于样本值的函数) θi=θi(x1,x2,...,xn)(θi)
来估计theta,若
θ ′ \theta' θ
的数学期望
E ( θ ′ ) = θ E(\theta')=\theta E(θ)=θ
那么我们称呼:
θ ′ \theta' θ
为theta的无偏估计量。


定理1:对于总体有
E ( X ) = μ , D ( X ) = σ 2 E(X)=\mu,D(X)=\sigma^2 E(X)=μ,D(X)=σ2
从总体X中抽取一定样本x1、x2、、xn,那么:

  • 均值是期望无偏估计;
  • 样本方差是总体方差的无偏估计;

个人理解:总体参数之所以这样称呼,是因为在前面说明数字特征的时候提到过,总体的期望和方差就是两个位置参数,那么如果是我用相关的统计量去估计未知参数,如果说统计量的数学期望是等于位置参数的,那么就是无偏估计。目前感觉没啥感性认知。

2.有效性

对于极大似然估计和矩估计得到的多组无偏估计参数组合,谁的方差小,说的有效性更大。

3.一致性(了解一下,=-=)

就是说当用来估计的参数量足够大的时候,统计量参数估计越能趋于总体的未知参数

这个好理解——这就是机器学习中的表达能力的说法,参数量越大,模型的表达能力越强。

第三节 区间估计

点估计是一下子给一个准确的估计值,但是一般来说更加科学、合理、准确的方法是给一个预测区间,这就是区间估计。

1.总体均值的区间估计

已知总体X分布依赖于位置参数theta,由给定的样本容量为n的样本可以得到两个统计量
θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2
对于给定的
α \alpha α
如果这两个统计量满足:
P ( θ 1 ′ < θ < θ 2 ′ ) = 1 − α P(\theta_1'<\theta<\theta_2')=1-\alpha P(θ1<θ<θ2)=1α
那么我们称呼区间:
[ θ 1 ′ , θ 2 ′ ] [\theta_1',\theta_2'] [θ1,θ2]
theta的置信水平为1-alpha的置信区间,两个统计量分别为置信下限与上限,1-alpha为置信概率,alpha为显著水平

(1)总体:正态分布;方差已知

问:已知总体X服从
N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
,其中
σ 2 \sigma^2 σ2

已知,从X中抽取样本x1-xn,由此样本球的u的置信区间(只有u不知道)。

答:我们根据之前的抽样分布定理得到:
μ 服 从 分 布 : N ( μ , σ 2 n ) \mu服从分布:N(\mu,\frac{\sigma^2}{n}) μN(μ,nσ2)
于是 :
U = x ‾ − μ σ / n − N ( 0 , 1 ) U=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}-N(0,1) U=σ/n xμN(0,1)
获取双侧分位点
P ( ∣ U ∣ < μ α 2 ) = 1 − α P(|U|<\mu_{\frac{\alpha}{2}})=1-\alpha P(U<μ2α)=1α
从而可以化简得到一个
μ \mu μ
的不等式子,这就是其置信区间:
( x ‾ − u α 2 σ n , x ‾ + u α 2 σ n ) (\overline{x}-u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{x}+u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}) (xu2αn σ,x+u2αn σ)

(2)分布:正态分布;方差未知

这种情况的话,很明显就不能构造标准正态分布找分位点了,只能另找法子——由第六章第二个抽样分布定理我们可以得到:
t = x ‾ − μ s n − t ( n − 1 ) t=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}-t(n-1) t=n sxμt(n1)
**这个不用到总体方差,而用到样本方差的式子。**后面步骤、方法同上——构造t分布、找双侧分位点。最后得到:
( x ‾ − t α 2 ( n − 1 ) s n , x ‾ + t α 2 ( n − 1 ) s n ) (\overline{x}-t_\frac{\alpha}{2}(n-1)\frac{s}{\sqrt{n}},\overline{x}+t_\frac{\alpha}{2}(n-1)\frac{s}{\sqrt{n}}) (xt2α(n1)n s,x+t2α(n1)n s)

(3)一般总体,大样本

根据中心极限定理,只要样本足够大:
U = x − μ σ / n U=\frac{x-\mu}{\sigma/\sqrt{n}} U=σ/n xμ
都是趋近于标准正态分布的。那么u的区间估计为:
( x ‾ − u α 2 σ n , x ‾ + u α 2 σ n ) (\overline{x}-u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{x}+u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}) (xu2αn σ,x+u2αn σ)

2.总体方差的区间估计

已知总体服从一个正态分布:
N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
并且已知样本x1-xn,现在要对方差做出估计。

同样的使用第六章的抽样分布定理:
( n − 1 ) s 2 σ 2 = χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}=\chi^2(n-1) σ2(n1)s2=χ2(n1)
给定显著水平alpha。记两个临界值k1、k2:
k 1 = χ α 2 2 ( n − 1 ) , k 2 = χ 1 − α 2 2 ( n − 1 ) k_1=\chi^2_{\frac{\alpha}{2}}(n-1),k_2=\chi^2_{1-\frac{\alpha}{2}}(n-1) k1=χ2α2(n1),k2=χ12α2(n1)
根据卡方分布的上分位点规律知:
1 − α = P ( k 1 < ( n − 1 ) s 2 σ 2 < k 2 ) = P ( ( n − 1 ) s 2 k 1 < σ 2 < ( n − 1 ) s 2 k 2 ) 1-\alpha=P(k_1<\frac{(n-1)s^2}{\sigma^2}<k_2)=P(\frac{(n-1)s^2}{k_1}<\sigma^2<\frac{(n-1)s^2}{k_2}) 1α=P(k1<σ2(n1)s2<k2)=P(k1(n1)s2<σ2<k2(n1)s2)
故可以得到方差置信区间:
( ( n − 1 ) s 2 k 1 , ( n − 1 ) s 2 k 2 ) (\frac{(n-1)s^2}{k_1},\frac{(n-1)s^2}{k_2}) (k1(n1)s2,k2(n1)s2)

总结

这一章就是已经知道了大概的分布函数,要估计未知参数,那么其实就是一个机器学习的范畴,第一节就是training,第二节就是一个valid/test过程。第三节主要是另一种更为科学的估计方法——区间估计。

)s2}{k_1}<\sigma2<\frac{(n-1)s^2}{k_2})
故 可 以 得 到 方 差 置 信 区 间 : 故可以得到方差置信区间: :
(\frac{(n-1)s2}{k_1},\frac{(n-1)s2}{k_2})
$$

总结

这一章就是已经知道了大概的分布函数,要估计未知参数,那么其实就是一个机器学习的范畴,第一节就是training,第二节就是一个valid/test过程。第三节主要是另一种更为科学的估计方法——区间估计。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值