python 数据分析 _统计学常用概念(二)

1.基础概念

  • 样本均值和总体均值

如果我们的样本选择很差,那么我们的样本均值会严重偏离我们的总体均值。有一种可靠的方法可以降低样本均值偏差的风险 - 采集更多样本。较大样本集的样本均值将更接近于总体均值。这种被称为中心极限定理的现象表明,如果我们有足够大的样本量,我们所有的样本均值都足够接近总体均值。

  • 中心极限定理 Central Limit Theorem

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。

现在我们要统计全国的人的体重,看看我国平均体重是多少。
我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组,每组50个人。 
然后,我们求出第一组的体重平均值、第二组的体重平均值,一直到最后一组的体重平均值。
中心极限定理说:这些平均值是呈现正态分布的。并且,随着组数的增加,效果会越好。 
最后,当我们再把1000组算出来的平均值加起来取个平均值,这个平均值会接近全国平均体重。

核心观念是无论之前各值的分布情况是怎么样的,取样计算的平均值会符合正态分布,这一点使得正态分布的适用范围很大,当然前提条件是取样是随机的,值是独立的。 其中要注意的几点:

1.总体本身的分布不要求正态分布
上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。

2.样本每组要足够大,但也不需要太大
取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。

  • 假设检验 Hypothesis Tests

统计假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理。

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。也被称为显著性检验(significant test)

假设检验是一种确定我们是否可以确信零假设是错误的数学方法。不同的情况需要不同类型的假设检验。

假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。

假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。

  • 零假设

零假设(虚无假设)是做统计检验时的一类假设。零假设的内容一般是希望证明其错误的假设。与零假设相对的是备择假设(对立假设),即不希望看到的另一种可能(换句话说,备择假设通常才是研究者最想知道的)。

监督部门称了50包标有500g重的红糖, 均值是498.35g, 少于所标的500g. 
对于厂家生产的这批红糖平均起来是否够份量, 需要统计检验由于厂家声称每袋500g
因此零假设为总体均值等于500g(被怀疑对象总是放在零假设)
而且由于样本均值少于500g(这是怀疑的根据), 把备选假设定为总体均值少于500g

这种备选假设为单向不等式的检验称为单尾检验, 而备选假设为不等号”≠”的称为双尾检验

  • 检验水准α和P值

如何使用假设检验来确定零假设的有效性。假设检验提供了一个数值答案,称为p值,它可以帮助我们确定我们对结果的信心。在这种情况下,p值是我们在零假设为真的假设下产生观察统计量的概率。

如果P值很小,说明原假设H0的发生概率很小,可认为是小概率事件,当P值小到一定程度时,我们就有理由拒绝原假设H0的成立。但需要注意的是,P值的大小并不能代表所检验的差异的大小,也就是说P值越小,并不能说明差异越大。

那么,P值一般要小到什么程度才能被认为是小概率事件呢?此时我们就要设立一个检验水准也称显著性水准,即α,它确定了小概率事件的标准。通常设定α=0.05或0.01,但α的取值并非一成不变,可以根据研究目的的不同给予不同的设置。

当P≤α时,在设定α的检验水准下,可认为原假设H0为小概率事件,因此拒绝H0,接受备择假设H1,差异有统计学显著性。
当P>α时,在设定α的检验水准下,不能认为原假设H0为小概率事件,因此不拒绝H0,差异无统计学显著性。

  • I型和II型错误

如果一个统计检验的结果拒绝零假设(结论不支持零假设),而实际上真实的情况属于零假设,那么称这个检验犯了第一类错误;即,第一种错误是在不相关的事物之间找到相关性,有时被称为“假阳性”。前面提到的检验水准α,就是预先设定允许犯I类错误概率的最大值,此时犯I类错误的概率即为α。

反之,如果检验结果支持零假设,而实际上真实的情况属于备择假设,那么称这个检验犯了第二类错误;即,第二种错误是未能找到实际相关的事物之间的相关性,也被称为“假阴性”。

1. 零假设一般是有意推翻的假设
2. 由于第一类错误的概率可以通过显著性水平的选定加以控制,零假设一般是如果出现第一类错误后后果更为严重的情况的假设。

两种错误的关系:
对于某一具体的检验来说,当样本量n一定时,α越小,β越大。实际应用中通过增加样本量来减少β。

参考:https://zhuanlan.zhihu.com/p/27515652
参考:https://zhuanlan.zhihu.com/p/25241653


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值