python 数据分析 _统计学常用概念（二）

最新推荐文章于 2024-04-16 07:47:00 发布

牛奶没法用

最新推荐文章于 2024-04-16 07:47:00 发布

阅读量492

点赞数

分类专栏：统计学

本文链接：https://blog.csdn.net/weixin_42969619/article/details/96131255

版权

统计学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.基础概念

样本均值和总体均值

如果我们的样本选择很差，那么我们的样本均值会严重偏离我们的总体均值。有一种可靠的方法可以降低样本均值偏差的风险 - 采集更多样本。较大样本集的样本均值将更接近于总体均值。这种被称为中心极限定理的现象表明，如果我们有足够大的样本量，我们所有的样本均值都足够接近总体均值。

中心极限定理 Central Limit Theorem

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样，一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。

现在我们要统计全国的人的体重，看看我国平均体重是多少。
我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组，每组50个人。 
然后，我们求出第一组的体重平均值、第二组的体重平均值，一直到最后一组的体重平均值。
中心极限定理说：这些平均值是呈现正态分布的。并且，随着组数的增加，效果会越好。 
最后，当我们再把1000组算出来的平均值加起来取个平均值，这个平均值会接近全国平均体重。

核心观念是无论之前各值的分布情况是怎么样的，取样计算的平均值会符合正态分布，这一点使得正态分布的适用范围很大，当然前提条件是取样是随机的，值是独立的。 其中要注意的几点：

1.总体本身的分布不要求正态分布
上面的例子中，人的体重是正态分布的。但如果我们的例子是掷一个骰子（平均分布），最后每组的平均值也会组成一个正态分布。

2.样本每组要足够大，但也不需要太大
取样本的时候，一般认为，每组大于等于30个，即可让中心极限定理发挥作用。

假设检验 Hypothesis Tests

统计假设检验就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设是否合理。

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数，就会希望根据结果对未知的真正参数值做出适当的推论。也被称为显著性检验(significant test)

假设检验是一种确定我们是否可以确信零假设是错误的数学方法。不同的情况需要不同类型的假设检验。

假设检验的种类包括：t检验，Z检验，卡方检验，F检验等等。

假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件（P<0.01或P<0.05）在一次试验中基本上不会发生。

零假设

零假设（虚无假设）是做统计检验时的一类假设。零假设的内容一般是希望证明其错误的假设。与零假设相对的是备择假设（对立假设），即不希望看到的另一种可能（换句话说，备择假设通常才是研究者最想知道的）。

监督部门称了50包标有500g重的红糖, 均值是498.35g, 少于所标的500g. 
对于厂家生产的这批红糖平均起来是否够份量, 需要统计检验由于厂家声称每袋500g
因此零假设为总体均值等于500g(被怀疑对象总是放在零假设）
而且由于样本均值少于500g(这是怀疑的根据）, 把备选假设定为总体均值少于500g

这种备选假设为单向不等式的检验称为单尾检验, 而备选假设为不等号”≠”的称为双尾检验