大数定律和中心极限定理

1 大数定律

这里强调的是总体与样本

  1. 大数定律就是说:当随机事件发生的次数足够多时,发生的频率趋近于预期的概率
  2. 大数定律说的是当随机事件重复多次时频率的稳定性,随着试验次数的增加,事件发生的频率趋近于预期的“概率”

2 赌徒缪误:

1,2,4,8-----在赌钱时——输了就翻倍,一直到赢为止

有人说:如果已经连续4次出现正面,接下来的第5次还是正面的话,就接连有5次“正面”,根据概率论,连抛5次正面的几率是1/25=1/32。所以,第5次正面的机会只有1/32,而不是1/2。

以上混淆了“在硬币第1次抛出之前,预测接连抛5次均为正的概率”和“抛了4次正之后,第5次为正的概率”,
既(11111)---- 1/32,
(1111)1 ---- 1/2。

参考:http://blog.sciencenet.cn/blog-677221-1063741.html

3 中心极限定理

3.1 大数定律和中心极限定理的关系:

上面通过赌徒谬误介绍了概率论中的大数定律。大数定律说的是当随机事件重复多次时频率的稳定性,随着试验次数的增加,事件发生的频率趋近于预期的“概率”。但大数定律并未涉及概率之分布问题。
此外大数定律说明了在一定条件下,当系统的个体足够多时,系统的算数平均值会集中在期望位置。从这个角度,中心极限定理包含了大数定律。因为中心极限定理在于揭示系统在期望附近的统计性质,即**“以何种方式”集中在期望。**

总的来说就是——大数定律反映的是频率->概率(或者认为广义的期望);而中心极限定理反映的是——在整体结果下,结果内部发生各种情况下的一个概率分布情况。

3.2 那什么是中心极限定理?

中心极限定理指的是分别适用于不同条件的一组定理,但基本可以用一句通俗的话来概括它们:大量相互独立的随机变量,其求和后的平均值以正态分布(即钟形曲线)为极限。
Eg:以二项分布为例进行解释(抛硬币)
对于抛n次硬币,出现正面k次的一个分布情况,如下:

但是对于二项分布不一定是对对称的,除了受抛的次数n影响,还受对应的概率p的影响

3.3 晋级

再后来,中心极限定理的条件逐渐从二项分布推广到独立同分布随机序列,以及不同分布的随机序列。因此,中心极限定理不是只有一个定理,而是成为研究何种条件下独立随机变量之和的极限分布为正态分布的一系列命题的统称。
在一定条件下,各种随意形状概率分布生成的随机变量,它们加在一起的总效应,是符合正态分布的。在统计学实验中特别有用,因为实际上的随机生物过程或物理过程,都不是只由一个单独的原因产生的,它们受到各种各样随机因素的影响。然而,中心极限定理告诉我们:无论引起过程的各种效应的基本分布是什么样的,当实验次数 n 充分大时,所有这些随机分量之和近似是一个正态分布的随机变量(图4)。
在实际问题中,常常需要考虑许多随机因素所产生总影响。例如,许多因素决定了人的身高:营养、遗传、环境、族裔、性别等等,这些因素的综合效果,使得人的身高基本满足正态分布。另外,在物理实验中,免不了有误差,而误差形成的原因五花八门,各种各样。如果能够分别清楚产生误差的每种单一原因,误差的分布曲线可能不是高斯的,但是,所有误差加在一起时,实验者通常得到一个正态分布。
在这里插入图片描述

3.4 中心极限定理的应用

正态分布在应用上非常有效,下面便举两个简单例子予以说明。
例1:小王到某保险公司应聘,经理给他出了一道考题:如果让你设计一项人寿保险,假设客户的数目有1万左右,被保险人每年交200元保费,保险的赔偿金额为5万元,估计当地一年的死亡率(自然+意外)为0.25%左右,那么,你会如何计算公司的获利情况?
小王在经理面前紧张地估算了一下:从1万个客户得到的保费是200万,然后1万人乘以死亡率,可能有25人死亡,赔偿金额为25×5万,等于125万。所以,公司可能的收益应该是200万减去125万,等于75万左右。经理面露满意的笑容,但又继续问:75万只是一个大概可能的数目,如果要你具体大略地估计一下,比如说,公司一年内从这个项目得到的总收益为50-100万元的概率是多少,或者是需要估计公司亏本的概率,你怎么算呢?

图6:正态分布用于估计人寿保险
这下难倒了小王:要真正计算概率需要用到分布,这是什么分布啊?小王脑袋里突然冒出了“中心极限定理”,1万个客户的数目足够大了,可以用正态分布。首先需要计算平均值m和方差s,人寿保险简单,要么受保人死了公司赔偿,要么没死就不赔偿,是一个像抛硬币的“二项分布”问题,只不过这儿死亡的概率比较小,只是p=0.25%。用正态分布来近似的话,只要知道了期望和方差,概率便不难计算。小王回想起来正态分布的简单图像以及几个关键数值(见图6),算出均值m=E(X)=np=10000*0.25%=25,方差(s2=Var(X)=np(1-p)=25),由此得到s=5。
然后,要计算公司赚50-100万元的概率,从图6可知,也就是死亡人数在20到30之间的概率,刚好就是从(m-s)到(m+s)之间的面积,大约68.2%左右。至于公司何种情况下会亏本呢?直观而言,如果死亡的人数多于40,公司便亏本了,概率到底是多少呢?同样可用图6进行估计,40和25之间相差15,等于3s,因而得到概率大约等于0.1%,所以,保险公司亏本的概率几乎为零。

参考:http://blog.sciencenet.cn/blog-677221-1068813.html

  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值