深入浅出统计学(十)—— 统计抽样的运用

本文探讨了在IT技术背景下,如何通过各种抽样方法如简单随机抽样、分层抽样、整群抽样和系统抽样来设计具有代表性的样本,以及识别和减少样本偏倚的重要性。
摘要由CSDN通过智能技术生成

1. 简介

通过在总体抽取一个好的样本,使其具有代表性,即样本具有与总体十分相似的特性,进而可以根据样本来预测总体的特性,比如数据中心相同。

2. 设计样本

1、确定目标总体:因为只有先弄清目标总体所在处,才能知道样本取自哪里。在这里插入图片描述
2、确定抽样单位:比如可以是一粒口香糖球,也可以是一盒口香糖球。在这里插入图片描述
3、确定抽样空间:涵盖整个目标总体的抽样空间表。在这里插入图片描述在这里插入图片描述

3. 偏倚

偏倚样本无法代表目标总体,由于样本与总体的特性不相似,故无法根据样本对总体作出正确的判断。

在这里插入图片描述
样本偏倚的产生诱因主要有:
在这里插入图片描述
如上所述,偏倚来源广泛,而其中大部分是归咎于样本选取方法,通过检查样本的选取方法,使偏倚的发生几率降至最低程度。

4. 样本的选择

4.1 简单随机抽样

通过随机过程选取一个大小为n的样本,所有大小为n的可能样本被选中的可能性都相同。

I. 重复抽样

在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中。如在街上提问,你可能问了一个人多次。

II. 不重复抽样

不再将抽样单位放回总体。如口香糖球检验,尝过的口香糖球是不会被放回总体的。

III.样本的选取

1、抽签 2、随机编号生成器

IV. 简单随机抽样的缺点

仍然存在样本无法代表总体的可能性,因为是随机的,存在万一。比如可能最终抽取到的全是黄色口香糖球,而错失其他颜色。

4.2 分层抽样

定义:将总体按照某些特征分成若干层,然后从每一层中独立地进行简单随机抽样。将总体分割为几个相似的组,每个组具有类似的特性,为此需查看每一个层在总体中所占的比例,然后按照相应比例从每一个层中抽取抽样单位。

应用场景:适用于总体具有明显层次结构的情况,例如按地区、年龄、收入水平等划分的不同群体。

举例:如果调查一个城市的居民对某一政策的看法,可以先将城市按照不同的地区(如市中心、郊区、工业区)进行划分,然后在每个地区内进行简单随机抽样,以确保样本在地区上的代表性。

4.3 整群抽样

定义:将总体分成若干个互不重叠的群体(或称为“群”),然后随机抽取部分群体作为样本。

应用场景:适用于总体中存在明显群体结构的情况,例如按照行业、组织机构等划分的不同群体。

举例:如果研究一个城市的企业对环保政策的态度,可以先将企业按照行业(如制造业、服务业、金融业)进行划分,然后随机选择几个行业作为样本,以确保不同行业在样本中的代表性。

进行整群抽样时,不是对抽样单位进行简单随机抽样,而是对群进行简单随机抽样,然后对每一个群的各种特性进行调查,比如我们可以对一盒盒口香糖球进行简单随机抽样,然后品尝这些盒子里的糖球的味道。
它的优点是不需要使用总体抽样空间就可以进行整群抽样,比如我们在调查数目情况,并把几片特定的森林作为群,则只需要了解那几片森林中的数目就行了。
整群抽样之所以行得通,是因为群与群相互之间很相似。

4.4 系统抽样

定义:通过固定的间隔从总体中随机选择一个起始点,然后以固定的间隔依次抽取样本。

应用场景:适用于总体中不存在明显层次结构或群体结构的情况,例如随机抽取学生或家庭的调查。

举例:如果对一个城市的家庭进行调查,可以从电话簿中随机选择一个起始点(如一个姓氏的第一个字母),然后以固定的间隔选择一定数量的家庭作为样本,以确保样本的随机性和代表性。

按照某种顺序列出总体名单,然后每K个单位进行一次调查。比如可以选择每10个样本抽样一次。
其优点是快捷简单,但缺点是若总体中存在某种循环模式,则样本将发生偏倚。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值