推断统计学(inferential statistic):是研究如何根据样本数据推断总体数量特征的方法,是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出概率形式表述的推断。
对比:描述统计学(descriptive statistic):是研究数据反映客观现象的特点,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概况与分析得出分析客观现象的规律性数量特征的学科。(以下链接为如何用Python进行描述性统计)
https://blog.csdn.net/MsSpark/article/details/86188032blog.csdn.net一、总体与样本
1.1总体(population)与样本(sample)
- 总体:研究对象的整个群体
- 样本:从总体中选取的一部分数据
- 样本数量:有多少个样本
- 样本大小(样本容量):每个样本包含多少个体
- 抽样分布:将样本平均值的分布可视化
1.2中心极限定理与大数定律
1)中心极限定理(central limit theorem)
中心极限定理说明了:
- 样本均值约等于总体均值
- 不管总体呈何种分布,任意一个总体的样本平均值都会围绕在总体均值周围,并呈正态分布
中心极限定理作用:
- 在无法获取数据总体情况下,用样本(平均值)来估计总体(平均值),例如民意调查。
- 根据总体信息(平均值和标准差),判断某个样本属于该总体的概率大小。
打开链接,点击左上角的begin按钮,开始理解中心极限定理:
Sampling Distributionsonlinestatbook.com2)大数定律(law of large numbers)
大数定律说明了:
n个独立同分布的随机变量的观察值的均值依概率收敛于这些随机变量所属分布的总体均值。
1.3如何用样本估计总体
1)选用正确的抽样方法,得到样本数据
在实际情况中,通常我们无法对所有数据进行调查,此时一般采用从整体中抽取样本的方法进行调研,具体选用的抽样方法依数据本身特点而异。 常用的抽样方法有:简单随机抽样、分层抽样、整群抽样、系统抽样等。
1. 简单随机抽样
即从总体N个单位中任意抽取n个单位作为样本,使每个样本被抽中的可能性相等的一种抽样方式。
简单随机抽样有两种具体做法:重复抽样和不重复抽样。
- 重复抽样:有放回的抽样,即在选取一个抽样单位并记录下这个抽样单位的相关信息后,再将其放回总体