可汗学院统计学笔记(二)

1.中心极限定理(Central Limit Theorem)

中心极限定理:假设我们有一个分布,它有定义好的均值和方差。用X表示服从这个分布的变量。进行n次实验(n很大),每次实验得到的结果是对这个分布的抽样,将每次实验结果用x_i表示,则n次实验均值

\bar{X}=\frac{x_1+x_2+\cdots+x_n}{n}

\bar{X}的分布将趋近于正态分布。无论原数据分布是什么,这个定理都成立。

这里有一个重要的分布:

样本均值的抽样分布(Sampling Distribution of the sample mean)

,也就是\bar{X}的分布。\bar{X}与X一样,都是一个随机变量,只是它的值由n个随机过程决定。

网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html上提供了一个演示程序可以让我们更好地理解中心极限定理。

第一行是原始分布,它可以是任意一个奇怪的分布。第二行是采样的过程,在最终的结果中不显示。第三行和第四行分别是当抽样次数为5和15时,所有样本的均值的分布。可以看到当N=5时,样本均值的分布已经可以看出正态分布的形状,当N增大到16时,这个样本均值的分布是一个方差更小的正态分布。

当样本容量N增大时,样本均值的抽样分布越来越接近正态分布,并且分布的方差/标准差随着N的增大而减小。

关于样本均值的抽样分布的几个重要结论:

1.样本均值的抽样分布的均值与总体均值相等。即:

\mu_{\bar{X}}=\mu

2.样本均值的抽样分布的方差与样本数成反比,并有一个确定的关系:

\sigma ^{2}_ {\bar{X}}=\frac{\sigma^2}{n}

标准差:\sigma_{\bar{X}}=\frac{\sigma }{\sqrt{n}}

样本均值的抽样分布的标准差又称为均值标准误差(standard error of the mean)。

这里插播两个正态分布的概念:

偏度(Skew)

如果是一个完美的正态分布,则skew=0;如果偏度为正,则意味着右侧尾部较长;如果偏度为负,则意味着左侧尾部较长。

峰度(Kurtosis)

如果时一个完美的正态分布,则峰度为0时;当峰度为负时,正态分布的顶部较肥,尾部较陡峭;当峰度为正时,正态分布的顶部较瘦,尾部较平缓。

2.伯努利分布(Bernoulli Distribution)

伯努利分布是最简单的二项分布。伯努利分布中的事件只会出现两种结果。我们假设其中一种结果为“成功”,其概率为p,另外一种结果为“失败”,其概率为1-p。则有以下结果:

均值:\mu=(1-p)\cdot 0+p\cdot1=p

方差:\sigma ^2=(1-p)\cdot(0-p)^2+p\cdot(1-p)^2=p(1-p)

标准差:\sigma =\sqrt{\sigma ^2}=\sqrt{p(1-p)}

3.置信区间(confidence interval)

有这个一样问题:

从农场的200,000个苹果中取出36个苹果进行采样。样本的平均重量为112g,样本的标准差为40g。请问:总体200,000个苹果的平均重量的95%置信区间是多少?

我们得到的只是样本的信息,如何根据极少的样本信息得到总体信息呢?思路如下:

1.从总体中抽取36个样本得到的样本均值是样本均值的抽样分布的一个抽样,也就是一个正态分布的抽样;

2.用样本的标准差作为总体标准差的估计,并计算样本均值的抽样分布的标准差:\sigma_{\bar{X}}=\frac{\sigma }{\sqrt{n}}

3.样本均值为\bar{X},总体均值为\mu,则这两个概率相等:P(\mu\bar{X}的n个标准差范围内)=P(\bar{X}\mu的n个标准差范围内);

4.  3中的概率值可以通过经验法则或 查表计算。

说明:因为使用样本的标准差作为总体标准差的估计,并不准确,所以这里说的是“置信”区间,而不是确定的。

t 分布(t distribution)用于小样本容量时置信区间的估计

当样本数很小时,样本均值的抽样分布并不服从于正态分布,不能用正态分布的经验法则或表格进行概率计算。有专门的t分布计算表格。t分布与正态分布的差别是:t分布有“肥”尾,这是因为低估了抽样分布的标准差。

今天没时间啦,暂时先写这么多,之后再补充~

参考:

可汗学院:统计学  http://open.163.com/special/Khan/khstatistics.html

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值