数学基础-概率论03(统计推断-参数估计)

目录:

1222446-20181118172221981-1134880414.png

统计推断是通过样本推断总体的分布或者分布的数字特征。

3.参数估计

已知一个总体的分布类型,但是对分布里面的参数不清楚,如泊松分布P(1222446-20181118172222428-803753553.png),正态分布的N(1222446-20181118172222691-1846722490.png),这时候需要对这些未知参数进行估计。

3.1 点估计

点估计:以某个适当的统计量的估测值作为未知参数的估计值

3.1.1 矩估计

矩估计法是用样本n阶矩去估计总体n阶矩,n的大小由未知参数决定,在估计的过程中,解得未知参数。

例子:
1.泊松分布矩估计:已知总体X~P(1222446-20181118172222898-1435632997.png)[泊松分布],现有样本1222446-20181118172223206-1154020236.png,求1222446-20181118172223355-1313935316.png的矩估计量。
首先只有一个未知参数,一阶矩(期望)可以解决,泊松分布的一阶矩为:1222446-20181118172223513-786773614.png
其次样本的一阶矩是1222446-20181118172223716-392947436.png
令总体的一阶矩等于样本的一阶矩,即1222446-20181118172224230-1183920811.png,解得1222446-20181118172224638-788514048.png估计量(记为1222446-20181118172224945-1579189077.png)为:1222446-20181118172225091-1703338478.png

2.正态分布矩估计:已知总体X~N(1222446-20181118172225354-742797723.png)[正态分布],现有样本1222446-20181118172225506-996046702.png,求1222446-20181118172225648-812383752.png1222446-20181118172225791-1796423407.png的矩估计量。
两个未知参数,用一阶原点矩和二阶原点矩解决。并使总体的相应矩等于样本矩,建立其方程组后,解出两个参数。
解得:1222446-20181118172225938-154397167.png1222446-20181118172226289-84069934.png

特点:

1.矩估计的方法依赖于抽取的样本,不同的样本对应不同的参数估计值,所以具有一定随意性
2.使用矩估计要求总体存在原点矩,有些随机变量(如柯西分布)的原点矩不存在,因此无法使用矩估计


3.1.2 极大似然估计

极大似然估计始于高斯误差理论,直观的想法是目前为止所观测到的事件是最有可能出现的事件。比如你和职业车手比赛,有一人赢了,我们总是倾向于是职业车手赢得比赛。
设总体含有待估计参数1222446-20181118172226896-970390015.png,他可以取很多值,在这很多值值中取出 使得样本出现 的概率最大的那些值,称这些值1222446-20181118172227102-257719178.png1222446-20181118172227776-237213976.png的极大似然估计。

例子:
1.泊松分布极大似然估计:已知总体X~P(1222446-20181118172228016-634178360.png)[泊松分布],现有样本1222446-20181118172228443-1467937956.png,求1222446-20181118172228635-1703601732.png的极大似然估计值。
已知泊松分布的分布律为:1222446-20181118172228846-97390902.png
首先得到似然方程,该批次观测值出现的概率为所以事件的概率乘积,即

1222446-20181118172229054-2024347235.png

取对数得:

1222446-20181118172229465-770254859.png

由于L和lnL在同一个1222446-20181118172229761-858046342.png有极值,因此为了求L的极值,可以对lnL使用极限的思想进行分析。

1222446-20181118172229966-1495847787.png

解得1222446-20181118172230167-130575457.png的极大是然估计值(记为1222446-20181118172230317-1523645503.png):

1222446-20181118172230580-1036527373.png

特点:

1.不要求总体原点矩存在
2.需要求解似然方程


3.1.3 估计量的评选标准

1.无偏性
假设每次抽样,对参数1222446-20181118172230816-1626529734.png均有一个估计值,记为1222446-20181118172231099-753415485.png,若取所有估计值的期望是对参数的1222446-20181118172231578-466500454.png正确无偏估计,即1222446-20181118172231815-683023228.png,则1222446-20181118172232112-1947129740.png1222446-20181118172232294-218751859.png的无偏估计量。

2.有效性
多次抽样,使用不同的方法计算得到多组1222446-20181118172232638-298035222.png的估计量,这两组中较稳定的(即方差小)较其他组更为有效的估计。方差反映估计值在真实值附近更为“集中”。

3.一致性(相合性)
毫无疑问,抽取样本的容量越大,对未知参数的估计越接近真实值,估计量的这种性质称为一致性(相合性)

相合估计量:
1222446-20181118172233192-690256248.png为未知参数1222446-20181118172233464-1789912653.png的估计量,若1222446-20181118172233860-1228104099.png依概率收敛于1222446-20181118172234171-221903351.png,则对任意1222446-20181118172234825-1228457340.png,有

1222446-20181118172235190-1490602065.png

此时,称1222446-20181118172235545-1105552222.png1222446-20181118172236006-254031711.png(弱)相合估计量。

注:

1.一般而言,三个估计量评选标准只要满足前面两个标准就不错了,因为使用一致性要求样本容量足够大


3.2 区间估计

区间估计:用两个统计量的观测值确定的区间来估计未知参数的大致范围,并给出未知参数落在此区间的概率。

定义
对于事先指定的概率1222446-20181118172236318-1669623213.png,若有对未知参数1222446-20181118172236722-1555703975.png的统计量1222446-20181118172237037-1694994792.png1222446-20181118172237438-387200162.png,使得:

1222446-20181118172237586-1822233405.png

那么1222446-20181118172237950-929694956.png1222446-20181118172238558-1964392166.png置信水平为1222446-20181118172239003-1913389861.png置信区间,在1222446-20181118172239177-108755267.png1222446-20181118172239320-1594015636.png为置信上下限,在1222446-20181118172239584-1881356512.png置信区间长度


3.2.1 单正态总体参数的区间估计

均值区间估计
(1)总体方差已知,求1222446-20181118172239741-630167173.png的区间估计
总体服从正态分布且方差1222446-20181118172240089-313273091.png已知时,或者总体不是正态分布但是为大样本时,样本的均值1222446-20181118172240313-471292009.png的抽样分布均为正态分布,其数学期望为总体的均值1222446-20181118172240542-1964124253.png,方差为1222446-20181118172240714-313763218.png.样本均值经过标准化后的随机变量则服从标准正态分布,即:

1222446-20181118172240921-1588356975.png

根据标准正态分布性质,概率密度关于y轴对称,可得到以下式子:

1222446-20181118172241081-1116417395.png

解释如下:

标准正态分布的概率密度函数
标准正态分布的概率密度函数

已知概率密度函数下的面积为该变量出现的概率,假设区域2,3的面积和为1222446-20181118172242162-1681607188.png,则区域1,4的面积和为1222446-20181118172242345-476205695.png。由于对称关系,1,4各为1222446-20181118172242502-1840157008.png1222446-20181118172242765-1519572364.png为置信度,会提前告知,所以现在是已知概率,要求得随机变量上(即x轴)上对应的位置,如上图的u竖线与x轴的相交点位置。这个只需去查正态分布表。如1222446-20181118172242974-1756420584.png时,1222446-20181118172243191-992999836.png,去该表中查得总体在(0,1222446-20181118172243420-374928229.png)之间对于的随机变量位置为1.96.

enter description here
enter description here

所以,对于公式1,1222446-20181118172244005-976599371.png是根据置信水平1222446-20181118172244198-1189287758.png确定的,解出不等式为:

1222446-20181118172244416-871333656.png

所以,置信度为1222446-20181118172244610-2074093185.png的总体正态分布的置信区间为1222446-20181118172244818-1174210045.png

例子:假设随机事件总体满足正态分布N(1222446-20181118172244994-1731570104.png,0.05),一次抽样个数n=5,均值为1222446-20181118172245229-28244843.png,求其置信度为98%的置信区间?
解:1222446-20181118172245441-860043899.png,查表得1222446-20181118172245838-2038520164.png,代入式子得置信区间为1222446-20181118172246354-1757539844.png
-->表示总体的分布中,未知参数1222446-20181118172246554-199812976.png有98%的概率落在区间1222446-20181118172246788-186188884.png.

(2)总体方差未知,求1222446-20181118172246966-1067257881.png的区间估计

总体的方差1222446-20181118172247156-528211044.png未知,样本的方差1222446-20181118172247382-1028224158.png可以作为1222446-20181118172247531-87417211.png的无偏估计,构造估计量:

1222446-20181118172247793-380364337.png

参考连续型概率分布的T分布分析可知:T的概率密度函数的形状类似于均值为0方差为1的正态分布,但更低更宽。所以对于置信度为1222446-20181118172248196-638081921.png的置信区间为:

1222446-20181118172248617-1981028321.png

其中1222446-20181118172249018-1195712117.png根据n和1222446-20181118172249322-1367610913.png查T分布的临界值表可知。


3.2.1 双正态总体参数的区间估计

多因素引发质量指标X的变化,若X服从正态分布,则需要对两个正态分布的总体的均值差或方差比给出区间估计。

3.2.1.1 双正态总体均值差的区间估计

a.已知1222446-20181118172249630-1898554319.png
构造统计量:

1222446-20181118172249784-549790616.png

给定置信水平1222446-20181118172249942-1350176667.png,得以下式子:

1222446-20181118172250145-3433107.png

得置信区间为:

1222446-20181118172250347-1911909182.png

例子:

假设有两批抽样的玩具,其重量如下:
3 6 3 4 5 4
5 6 4 7 8 6
假设这两批样本分别满足正态分布N(1222446-20181118172250649-374562283.png,3),N(1222446-20181118172250856-2044736017.png,7),求两批样本置信水平为98%的总体重量均值差的区间估计。

解: 由两个样本可知,1222446-20181118172251009-1263220268.png,代入置信区间计算式,得置信区间为:1222446-20181118172251271-1006260694.png

a.未知1222446-20181118172251421-150621329.png,但是假设1222446-20181118172251686-530718163.png
构造统计量:

1222446-20181118172251883-1807190277.png

同单总正态参数估计一样,根据t分布的对称性,给出置信水平为1222446-20181118172252029-1003765019.png的置信区间为:

1222446-20181118172252344-70528721.png

3.2.1.2 双正态总体方差比的区间估计

构造统计量:

1222446-20181118172252601-1358431087.png

给定置信水平1-\alpha,得:

1222446-20181118172252911-1495424371.png
1222446-20181118172253258-607594558.png

解出区间为:

1222446-20181118172253518-552019841.png

该公式的大部分参数可以通过统计两次抽样得到,1222446-20181118172253727-2016376267.png等值查F分布临界值表得到。


3.3 (0-1)分布参数的区间估计

设有容量n>50的大样本,它来自(0-1)分布的总体X,Y的分布律为:

1222446-20181118172253943-822125995.png

其中p是未知参数,现在求p的置信水平为1222446-20181118172254131-114165290.png的置信区间。

由于样本量很大,根据中心极限定理得:

1222446-20181118172254592-1420943260.png

近似满足N(0,1)分布,有式子:

1222446-20181118172254871-1978729819.png

不写具体推导过程了(可参考百度文库),直接写区间估计结果:

1222446-20181118172255134-181745555.png

其中1222446-20181118172255372-1618684154.png

例子:

设有一批产品有100个,其中良品60个,求这批产品中置信区间为95%的良品率区间估计。
解: 可知:n=100,1222446-20181118172255533-1422697141.png
计算得:a=103.84,b=-123.84,c=36,代入式子2,得到:
置信95%的良品率置信区间为**[0.50,0.69]**

说明
本教程是在学习书籍新编概率论与数理统计-孙淑娥基础上所写的。

转载于:https://www.cnblogs.com/wushaogui/p/9960707.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值