1. 简介
通过在总体抽取一个好的样本,使其具有代表性,即样本具有与总体十分相似的特性,进而可以根据样本来预测总体的特性,比如数据中心相同。
2. 设计样本
1、确定目标总体:因为只有先弄清目标总体所在处,才能知道样本取自哪里。
2、确定抽样单位:比如可以是一粒口香糖球,也可以是一盒口香糖球。
3、确定抽样空间:涵盖整个目标总体的抽样空间表。
3. 偏倚
偏倚样本无法代表目标总体,由于样本与总体的特性不相似,故无法根据样本对总体作出正确的判断。
样本偏倚的产生诱因主要有:
如上所述,偏倚来源广泛,而其中大部分是归咎于样本选取方法,通过检查样本的选取方法,使偏倚的发生几率降至最低程度。
4. 样本的选择
4.1 简单随机抽样
通过随机过程选取一个大小为n的样本,所有大小为n的可能样本被选中的可能性都相同。
I. 重复抽样
在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中。如在街上提问,你可能问了一个人多次。
II. 不重复抽样
不再将抽样单位放回总体。如口香糖球检验,尝过的口香糖球是不会被放回总体的。
III.样本的选取
1、抽签 2、随机编号生成器
IV. 简单随机抽样的缺点
仍然存在样本无法代表总体的可能性,因为是随机的,存在万一。比如可能最终抽取到的全是黄色口香糖球,而错失其他颜色。
4.2 分层抽样
定义:将总体按照某些特征分成若干层,然后从每一层中独立地进行简单随机抽样。将总体分割为几个相似的组,每个组具有类似的特性,为此需查看每一个层在总体中所占的比例,然后按照相应比例从每一个层中抽取抽样单位。
应用场景:适用于总体具有明显层次结构的情况,例如按地区、年龄、收入水平等划分的不同群体。
举例:如果调查一个城市的居民对某一政策的看法,可以先将城市按照不同的地区(如市中心、郊区、工业区)进行划分,然后在每个地区内进行简单随机抽样,以确保样本在地区上的代表性。
4.3 整群抽样
定义:将总体分成若干个互不重叠的群体(或称为“群”),然后随机抽取部分群体作为样本。
应用场景:适用于总体中存在明显群体结构的情况,例如按照行业、组织机构等划分的不同群体。
举例:如果研究一个城市的企业对环保政策的态度,可以先将企业按照行业(如制造业、服务业、金融业)进行划分,然后随机选择几个行业作为样本,以确保不同行业在样本中的代表性。
进行整群抽样时,不是对抽样单位进行简单随机抽样,而是对群进行简单随机抽样,然后对每一个群的各种特性进行调查,比如我们可以对一盒盒口香糖球进行简单随机抽样,然后品尝这些盒子里的糖球的味道。
它的优点是不需要使用总体抽样空间就可以进行整群抽样,比如我们在调查数目情况,并把几片特定的森林作为群,则只需要了解那几片森林中的数目就行了。
整群抽样之所以行得通,是因为群与群相互之间很相似。
4.4 系统抽样
定义:通过固定的间隔从总体中随机选择一个起始点,然后以固定的间隔依次抽取样本。
应用场景:适用于总体中不存在明显层次结构或群体结构的情况,例如随机抽取学生或家庭的调查。
举例:如果对一个城市的家庭进行调查,可以从电话簿中随机选择一个起始点(如一个姓氏的第一个字母),然后以固定的间隔选择一定数量的家庭作为样本,以确保样本的随机性和代表性。
按照某种顺序列出总体名单,然后每K个单位进行一次调查。比如可以选择每10个样本抽样一次。
其优点是快捷简单,但缺点是若总体中存在某种循环模式,则样本将发生偏倚。