中心极限定理,统计学的傅里叶变换

人们在长期实践中认识到频率具有稳定性,即当实验次数不断增加时,频率稳定在一个数附近,这一事实显示了可以用一个数来表征事件发生的可能性大小,这使人们认识到概率的客观存在,进而由频率的性质的启发和抽象给出了概率的定义,因而频率的稳定性是概率客观存在的基础,伯努利大数定理则以严密的数学形式论证了频率的稳定性。

在谈论伯努利大数定理之前,我们先看一下大数定理。

大数定律

随机事件A的频率f_n(A)当重复试验的次数n增大时,总是呈现出稳定性,稳定在某一个常数附近。频率的稳定性是概率定义的客观基础。

伯努利大数定理

X_1,X_2,...,X_n是独立同分布的随机变量,记它们的公共均值为\mu。又设它们的方差存在并记为\sigma^2。则对任意给定的\varepsilon>0,有

\lim_{n \to +\infty} P(|\bar{x}_n-\mu|\geqslant\varepsilon) = 0

这个式子指出了“当n很大时,\bar{X}_n接近\mu”的确切含义。这里的“接近”是概率上的,也就是说虽然概率非常小,但还是有一定的概率出现意外情况(例如上面的式子中概率大于\varepsilon)。只是这样的可能性越来越小,这样的收敛性,在概率论中叫做“\bar{X}_n依概率收敛于\mu”。

中心极限定理

"多个独立统计量的和的平均值,符合正态分布。"

中心极限定理用通俗的话来讲就是,假设有一个服从(\mu,\sigma^2)的总体,这个总体的分布可以是任意分布,不用是正态分布,既可以是离散的,也可以是连续的。我们从该分布里随机取n个样本x_1,x_2,...,x_n然后求这些样本的均值\bar{X},这个过程我们重复m次,我们就会得到\bar{x}_1 ,\bar{x}_2, \bar{x}_3,...,\bar{x}_m如果n \to \infty,这些样本的均值服从(\mu,\frac{\sigma^2}{n})的正态分布。

import numpy as np
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt


mu ,sigma = 0, 1
sampleNum = 10
np.random.seed(0)
s = np.random.normal(mu, sigma, sampleNum)
plt.hist(s, bins=100, density=True)
plt.legend(labels=[ 'Number of samples %s' %sampleNum])
plt.show()

 

 上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。在实际问题中同样,常常需要考虑许多随机因素所产生的总影响。例如,许多因素决定了人的身高:营养、遗传、环境、族裔、性别等等,这些因素的综合效果,使得人的身高基本满足正态分布。另外,在物理实验中,免不了有误差,而误差形成的原因五花八门,各种各样。如果能够分别弄清楚产生误差的每种单一原因,误差的分布曲线可能不是高斯的。但是,当所有的误差加在一起时,实验者通常得到一个正态分布。

核心观念是无论之前各值的分布情况是怎么样的,取样计算的平均值会符合正态分布,这一点使得正态分布的适用范围很大,当然前提条件是取样是随机的,值是独立的。一般来讲取样数量大于30个(即n>30)就可以让中心极限定理发挥作用。不同分布情况下取平均值后得到的正态分布可以见如下图示

比如说,我们将一枚均匀硬币抛4次,正反(1、0)出现的可能性有16种(可用从0000到1111的16个二进制数表示),大数定律中涉及的概率p=0.5,指的是这16种情形的平均值。而所谓“分布”,则是描述这16种可能性在概率图中分别所处的位置。从理论上说,这16种可能性中, 1出现0、1、2、3、4次的概率,分别是1/16、4/16、6/16、4/16、1/16。图2的左图显示的便是当实验次数n=4时,出现1的概率对不同“出现次数”的分布情形。

01234
--1100--
--1010--
-100010011110-
-010001101101-
-001001011011-
00000001001101111111

# -*- coding: utf-8 -*-
"""
Created on Tue Jul 30 18:52:49 2019
@author: ZCJOHNLV
"""

from scipy.special import comb
# 输入投硬币的次数
n = 4
index = []
data = []
for i in range(n+1):
    p = comb(n,i)*0.5**i*0.5**(n-i)
    data.append(p)
    index.append(i)
print(data)

    
import matplotlib.pyplot as plt
import numpy as np
import matplotlib


matplotlib.rcParams['font.sans-serif']=['SimHei']   # 用黑体显示中文
matplotlib.rcParams['axes.unicode_minus']=False     # 正常显示负号
plt.bar(left=index, height=data, width=0.4, alpha=0.8, color='red')

plt.xlabel("区间")
plt.ylabel("频数")
plt.title("%s次抛硬币正面向上的频率分布"%n)
plt.show()


显而易见,抛硬币概率的分布图形随着抛丢次数n的变化而变化。抛硬币实验n次的概率分布称为二项分布。对对称硬币来说,二项分布是一个取值对应于二项式系数的离散函数,也就是帕斯卡三角形中的第n列。当实验次数n增大,可能的排列数也随之增多,比如,当n=4时对应于(1、4、6、4、1);当n=5时,对应于帕斯卡三角形中的第5列(1、5、10、10、5、1)……,然后再依次类推下去。下图中,画出了n=5、20、50的概率分布图。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值