第二章 变异——统计学存在的基础
概率论源于赌博
变异(Variation),也就是结果存在不确定性。
抽样,是部分代表整体。但是样本和整体又有不完全一样的可能性,因此存在抽样误差
2.1随机与变异
自己理解的变异和随机现象:
- 变异:一件事情发生多次后,产生了不同的结果,这叫变异。变异,是事情发生后结果不一样
- 随机:一件事情,可能有多种结果出现,这叫随机。随机是事情发生前预测的可能性有多种
找出事情所有可能发生的情况,根据变异的结果进行统计分析,找出某一事件的规律
2.2特朗普与罗斯福的胜出——抽样调查到底可不可靠
抽样调查有抽样误差,导致样本不能代表整体,要尽量保证样本的分布合理,减少样本偏差,使得样本可以代表整体
2.3什么是抽样误差
样本统计量:通过样本数据计算得到的结果值
多次随机抽样得出不同的样本统计量,他们之间的差异,体现了抽样误差。
估计总体参数时,需要考虑抽样误差导致总体参数的偏差。使用置信区间来估计总体参数。
置信区间(Confidence Interval):±2cm
计算抽样误差的大小:标准误(Standard Error),标准误是样本统计量的标准差。标准误越小,抽样误差越小
标准误 & 标准差
-
标准差(Standard Deviation),是对均数的偏离。标准误(Standard Error),是一种误差。
-
标准差,只是一个描述性指标,只是描述原始数据的波动情况,数据是一定的,标准差也是一定的。而标准误是跟统计推断有关的指标。描述性指标和推断性指标根本不是一个层次上的概念。
-
针对的计算对象不同。标准差是根据某次抽样的原始数据计算的。而标准误是根据多次抽样的样本统计量计算的。理论上,计算标准差只需要一个样本,计算标准误差需要多个样本。
实际中,仅靠一次抽样也可以计算标准误:se = s / (n^0.5)
其中, s是样本标准差,n为样本例数 。