数据和抽样分布
1. 随机抽样和样本偏差
- 样本:大型数据集的一个子集,一般用 n 表示其规模
- 总体:大型数据集,一般用 N 表示其规模
- 随机抽样:从总体中随机抽取元素到样本中,分为有放回和无放回
- 分层抽样:对总体分层,并在每层中做随机抽样
- 简单随机抽样:不经过分层的随机抽样
- 样本偏差:样本对总体做出了错误的解释
- 偏差
- 统计偏差是一些系统性的测量误差或抽样误差,是在测量或抽样过程中产生的。应严格区分由随机选取所导致的误差和由偏差所导致的误差。如果结果确实存在偏差,通常表明我们指定了不正确的统计学或机器学习模型,或是漏掉了某个重要的变量。
- 随机选择
- 首先需要正确地定义可访问的总体,然后确定抽样过程,是否需要分层抽样等
- 样本均值与总体均值
- 样本均值一般用 x ‾ \overline{x} x表示,总体均值一般用 μ \mu μ表示
2. 选择偏差
- 选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作。选择偏差可能是有意而为之,也可能是无意识的
- 趋均值回归:指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值。