统计学知识梳理--NO.2

目录

知识点清单

1.中心极限定理

2.置信区间

3.伯努利分布

4.误差范围

5.小样本容量置信区间


本次学习涵盖知识点:中心极限定理,置信区间

 本次学习参考内容:

1.可汗学院统计学公开课 35-46集

2.《深入浅出统计学》对应知识点翻一翻

知识点清单

1.中心极限定理

中心极限定理:设从均值为μ、方差为σ2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、标准差为\sigma /\sqrt{n}的正态分布。

个人理解:中心极限定理是指对于任意一个具有良好定义的均值和标准差的分布的总体,每次从这个总体中抽取n个样本,抽取m组,随着抽取组数的逐渐增大,每次抽取的样本的均值(也可以是样本和或者其他统计量)会接近正态分布的频率分布,随着n的增大,也就越接近正态分布。样本均值的抽样分布是正态分布,它的均值和原总体分布的均值相同,标准差会比原总分布的标准差小,随着每次抽样的样本容量n的增大,样本均值抽样分布的标准差减少,标准差的计算公式为\sigma /\sqrt{n},\sigma是原分布的标准差。

 注意:

1.分布的总体可以是任意分布,不一定非要是正态分布

2.一般来说,n的取值大于等于30时,可以认为样本均值的抽样分布是服从正态分布的


这里说明几个概念:

样本均值的抽样分布:来自原分布的抽样样本的均值的分布情况。样本均值是说求的是样本均值,抽样分布是说来自原分布抽样的样本。

偏度:完美正态分布的偏度为0,偏度为正,表示右侧尾部较长,尾部方向为正方向;偏度为负,表示左侧尾部较长,尾部方向为负方向。

峰度:峰度为正,尾部会较肥,同时峰值会较尖;峰度为负,尾部会较小,而中间部分更加平滑。

2.置信区间

置信区间是指由样本统计量所构造的总体参数的估计区间。一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。常见的是对总体均值的区间估计,比如我们得到了一批样本数据,可以利用这批样本数据来估计总体均值在某一区间的概率是多少,比如落在[a,b]区间的概率是95%,则说总体均值有95%的置信度在[a,b]区间内,落在[a,b]区间的概率是如何计算的,需要看[a,b]区间在样本均值的抽样分布中的距离样本均值抽样分布均值有几个抽样分布的标准差,即Z分数,Z= \left|\frac{(\overline{X}-u)}{\sigma /\sqrt{n}}\right|

3.伯努利分布

伯努利分布是一个离散概率分布。伯努利试验失败,随机变量为0,成功则为1。伯努利分布是最简单的二项分布形式。

伯努利分布的均值和方差:一个离散型随机变量,失败记为0,成功记为1,成功的几率为p,则失败的概率为1-p。则随机变量的均值为p,方差为p(1-p)。

\begin{center} E(X)=1*p+0*(1-p) = p\end{center}

\sigma ^{2} = p_{1}*(1-u)^{2}+p_{0}*(0-u)^{2}p_{1}表示发生事件1的概率,u为均值

4.误差范围

误差范围表达了统计结果中的随机波动的大小。如果一个伯努利试验成功概率p的置信区间如果是33%到53%(43%±10%),那么误差范围也就是10%。

这里说的是在置信区间中的误差范围,因为我们常说的在某一置信水平下的区间估计是在一定范围内的,不会存在对某个点的值置信水平检验。

5.小样本容量置信区间

当一次抽样的样本数量较小且总体方差未知时(n远<30),样本均值的分布将不会服从正态分布,而更近似的服从t分布。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。t分布用于对呈正态分布的总体的均值进行估计,在样本容量小时非常有用。

t分布的介绍:

t分布曲线形态与自由度df的大小有关。(df=n-1)

与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值