1. 抽样
总体与样本
总体:总体是要研究对象的整个群体。
样本:是从总体抽取一部分出来,代表总体情况的。
样本容量:抽取这一部分的数量
样本数量:从总体抽取部分,抽取几次。
统计量
统计量:是对数据进行统计的量,例如:均值、方差、标准差和比例等。根据总体和样本可分为总体统计量和样本统计量。
总体统计量:对总体进行统计的量
总体均值 μ μ μ:整个研究对象数据的均值
总体方差 σ 2 σ^2 σ2:整个研究对象数据的方差
样本统计量:对样本进行统计的量
总体均值 X ˉ \bar{X} Xˉ:取部分研究对象数据的均值
总体方差 S 2 S^2 S2:取部分研究对象数据的方差
分布
总体分布:总体数据的概率分布。很多时候无法获得总体所有元素的观测值,只能通过理论计算。
样本分布:抽取的样本中数据的概率分布。样本分布与总体分布近似(抽样正确的前提下)
抽样分布:对样本统计量概率分布的一种描述:所有样本均值的概率分布。
抽样方法
通过科学合理的方式进行抽样,使得样本具有代表性,一般我们采用以下四种方法:
简单随机抽样:总体中每一个对象被抽中的概率相等,对总计进行随机抽取。
分层抽样:指先将总体按照某种特征分为若干层,然后再从每一层内进行简单随机抽样。
系统抽样:核心在于确定一个所谓的“抽样间隔”,通过一定的抽样间隔进行抽取。
整群抽样:将总体分成几个群,先采用简单随机抽样的方法抽取群。
2. 中心极限定理
中心极限定理:从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值 X ˉ \bar{X} Xˉ的抽样分布近似服从正态概率分布。(样本容量>=30)
- 样本的平均值约等于总体平均值。
- 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈现正态分布。
总体方差和样本方差
由中心极限定理可以得出,样本均值和总体均值是相等的。但总体方差和样本方差却不相等。这是因为我们在抽取样本的时候很难同时抽取到非常大和非常小的值,这就导致样本的离散程度小于总体的离散程度,而样本容量的增大会使得这个差距缩小。
总体方差:
σ 2 = ∑ ( x − μ ) 2 n σ^2 = \frac{\sum{(x-μ)}^2}{n} σ2=n∑(x−μ)2n:总体数据个数
μ:总体均值
样本方差:
S 2 = ∑ ( x − X ˉ ) 2 n − 1 S^2 = \frac{\sum{(x-\bar{X})}^2}{n-1} S2=n−1∑(x−Xˉ)2n:样本数据个数
X ˉ \bar{X} Xˉ:样本均值
分母用(n-1)是为了减少因样本排除异常值在外导致的与总体标准差的误差,目的是用样本方差去估计总体方差。
标准误差
标准误差其实也是标准差,只不过它是所有样本平均值的标准差。标准误差是用来衡量样本平均值的波动大小。
标准差:对方差进行开平方。
中心极限定理应用:
- 通过样本对总体进行估计。
- 验证样本是否属于总体