【读书笔记->统计学】10-01 样本与抽样-总体与样本、抽样方法、设计与选择样本概念简介

样本与抽样

总体与样本

假设一个情境:曼帝糖果公司生产超长效口香糖球,这种产品具有多种颜色,可以满足多种口味。为了宣传口香糖球的口味持续时间,公司决定招聘试吃者进行口味检验。

我们当然不能让试吃者吃完所有的糖球。因此,我们需要从总体中抽出样本

糖球总体

糖球总体表示现有的每一粒糖球总和。

统计学上的总体指的是准备对其进行测量、研究或分析的整个群体,可以是人、得分,也可以是糖果一关键在于总体指的是所有对象。

普查指的是对总体进行研究或调查。在曼帝糖果的实例中,他们对每一粒糖球进行品尝,因此,是对糖球总体进行普查。普查可以给出关于总体的准确信息,但并不是在任何情况下都切实可行。当总体数量很大,或者说无穷无尽时,就不可能对每一个对象进行研究了。

糖球样本

不需要尝遍所有糖球也能搞清楚糖球口味持续时间一你可以不检验总体,而检验样本。

一个统计样本就是从总体中选取的一部分对象。通过选取样本,使其恰当地代表总体,从而得到代表总体的一个子集。对于曼帝糖果来说,一个口香糖球样本就是所选取的一小部分糖球,而不是每一粒糖球。

仅对总体的一个样本进行的研究或调查称为**样本调查,**在多数情况下,进行样本调查比进行普查更切实可行,通常样本调查所费的时间和费用都较低,且不用考虑整个总体。由于不使用总体,对口香糖球进行样本调查则意味着调查完毕后还会剩下大量糖球。

抽样方法

建立一个好样本的关键是尽量选择最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味着可以通过样本预测出总体具有哪种特性。

就如以下所示,如果抽样具有代表性,那么抽样结果数据就会和总体数据很相似:

在这里插入图片描述

但是,如果样本不能代表总体,就有可以导致错误的结论。比如从各种颜色的糖球中只抽样红色的糖球,调查其持续时间,这样就可能导致错误。

在这里插入图片描述

如何设计样本

  1. 确定目标总体

首先要弄清楚目标总体何在,才知道样本取自哪里。这里的目标总体指的是你正在研究的、并且打算为其采集结果的群体。你所选择的目标总体在很大程度上取决于你的研究目的,例如,你打算收集世界上所有的口香糖球的数据,还是收集某个特定品牌或某个特定类型的口香糖球的数据?

目标总体要尽可能精确,这样能更为容易地得出尽可能代表总体的样本。

在例子中:目标总体是所有口香糖球。

  1. 确定抽样单位

一旦确定目标总体,就需要决定要抽取哪一类对象,通常,要抽样的对象类型就是在确定目标总体时所描述的对象类型,例如,可以是一粒口香糖球,也可以是一盒口香糖球。

在例子中:抽样单位是一粒超长效口香糖球。

  1. 确定抽样空间

最后,你需要列一张表,表中列出目标总体范围内的所有抽样单位,最好给每个抽样单位取个名或编个号。这张表被称为抽样空间,基本上,你可以从这张表中选取样本。

有时候不可能得出涵盖整个目标总体的抽样空间表,例如,如果要收集生活在某个地区的居民的观点,由于人口流动表中列举的名字就会受到影响;如果所处理的是一些相似的对象,例如口香糖球,那么为每一粒糖球命名或编号恐怕是不可能的,或者说是不现实的。

为什么要抽样空间?

**如果不好好设计,样本有可能不精确。**设计样本需要额外付出不少准备时间,但是,比起费时、费钱地进行调查却换来一些错误结果,这要好多了。后者会让金钱和时间付诸东流,更有甚者,恐怕会有人根据错误的调查结果做出错误的决策。

设计不当的样本会引起偏倚

什么是偏倚?

如果每个样本都能做到十分可观,那么就不会偏倚,否则最终结果会发生扭曲。人可能无意或有意带入样本的某种个人偏好就是偏倚,这时的样本不再是从总体中随机选择的结果。

无偏样本

无偏样本可以代表目标总体,即该样本与总体样本具有相似特性,我们可以利用这些相似特性对总体本身做出判断。

一个无偏样本的分布形状与作为其来源的总体的分布形状相似,如果我们知道样本的分布形状,就可以据此以合理程度的置信水平预测总体的分布形状。

在这里插入图片描述

偏倚样本

偏倚样本无法代表目标总体,由于样本与总体的特性不相似,无法根据样本对总体做出判断。如果我们试图用样本的分布形状预测总体的分布形状,最终将会得出错误的结果。

在这里插入图片描述

偏倚的来源

  1. 抽样空间中条目不齐全,因此未包含目标总体中的所有对象。如果条目不出现在抽样空间中,那么也不会出现在样本中。
  2. 抽样单位不正确。例如,也许抽样单位不应该是一粒粒的口香糖球,而应该是一盒盒的口香糖球。
  3. 为样本选取的一个个抽样单位未出现在实际样本中。例如,你可能发出一份调查问卷,但并不是人人都给出回应。
  4. 调查问卷的问题设计不当。设计的问题要中性,要适合每个人回答。例如,“曼帝糖果公司的糖果比其他品牌的糖果更可口,您同意吗?”这种提问带有偏倚,较好的做法是请受调查者自己说出他们偏爱的糖果品牌。
  5. 样本缺乏随机性。例如,如果在大街上展开调查,你可能会回避行色匆匆或气势汹汹的人,于是你就将气势汹汹的人或行色匆匆的人排除在调查范围以外。

问:这么说抽样空间就是我们所抽取的所有对象的列表?

答:抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身,这是因为我们不会抽取抽样空间中的所有对象。

问:我如何形成抽样空间?

答:具体做法以及所用对象取决于你的目标总体,例如,如果你的目标总体是所有汽车车主,那么可以采用汽车车主花名册;如果你的目标总体是入读某所大学的全体学生,那么可以采用大学注册表。

问:电话簿之类的东西怎么样?能作为抽样空间吗?

答:这完全取决于你的目标总体。电话簿上不列出未装电话的家庭,还有一些家庭尽管装了电话,但会选择不在电话簿上公开。如果你的目标总体是有公开的电话号码的家庭,那么使用电话薄是一个不错的主意;如果你的目标总体是所有装有电话的家庭或甚至是所有家庭,那么你的抽样空间不会十分精准一这会带来偏倚。

目标总体、抽样单位、抽样空间、不偏倚例题

在这里插入图片描述

如何选择样本

简单随机抽样

一种做法是随机选取样本。假设你有一个包含 N 个抽样单位的总体,需要选取包含个抽样单位的样本。简单随机抽样就是通过随机过程选取一个大小为 n 的样本,所有大小为 n 的可能样本被选中的可能性都相同。

简单随机抽样有两种具体做法:重复抽样不重复抽样

重复抽样

重复抽样指的是:在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中。这样做的结果是某个抽样单位有可能被选取不止一次。重复抽样的例子有:决定向大街上的行人提问,事前并不查看是否已经向该行人提问过。当你拦住行人请他们回答问题,然后在问完后让他们离开,实际上就是将行人放回了总体,这意味着你有可能不止一次向他们提问。

不重复抽样

不重复抽样指的是:不再将抽样单位放回总体。不重复抽样的例子有:口香糖球检验一尝过的口香糖球是不会被放回总体的。

如何选取简单随机样本

主要2种方法:抽签、或使用随机编号

抽签

抽签就是把抽样空间中的成员的名字或编号写在纸上或是球上,然后将其全部放人一个容器,再随机取出个名字或编号,以便得到足够的样本单位。

随机编号生成器

如果你所处理的是一个大型抽样空间,抽签可能不太可行,于是可以采用另一种做法一随机编号生成器或者随机编号表。这时,你为抽样空间的每个成员编一个编号,再生成一组共个随机编号,然后从该空间中取出编号等于所生成的随机编号的成员。

重要提示:确保每个编号的生成机会相同,从而避免偏倚。

如果运气不好,可能最终都会抽到黄色口香糖球,导致偏倚,我们还有其他方法。

分层抽样

有一个方法可以取代简单随机抽样,即分层抽样。这种抽样类型将总体分割为几个相似的组,每个组具有类似的特性。这些特性或者组被称为层。例如,我们可以将口香糖球划分为不同的颜色一黄色、绿色、红色及粉色,这样每一种颜色就形成一个不同的层。

完成以上分层工作之后,就可以对每一个层进行简单随机抽样,确保最终样本中具有每一个组的代表。为此需查看每一个层在总体中所占的比例,然后按照相应比例从每一个层中抽取抽样单位。例如,如果曼帝糖果公司所生产的口香糖球有 50%是红色的,那么样本的一半应该由红色口香糖球组成。

整群抽样

如果总体中包括大量相似的组或群,则整群抽样可以派上用场。例如,口香糖球可能会按盒出售,每一盒中的口香糖球的数量和颜色组成都相似,于是每一盒糖球形成一个群。

进行整群抽样时,不是对抽样单位进行简单随机抽样,而是对群进

行简单随机抽样,然后对每一个群的各种特性进行调查。例如,你可以对一盒盒口香糖球进行简单随机抽样,然后品尝这些盒子里的糖球的味道。

整群抽样之所以行得通,是因为群与群相互之间很相似,另外它还有一个优点,不需要使用总体抽样空间就可以进行整群抽样。例如,如果你正在调查树木情况,并把几片特定的森林作为群,则只需要了解你所选定的几片森林中的树木就行了。

整群取样的问题在于可能做不到完全随机。例如,很有可能一盒包装中的所有口香糖球都是同一个厂家生产的一如果有不同生产厂家,你就不能选取这些糖球。

在这里插入图片描述

系统抽样

使用系统抽样时,按照某种顺序列出总体名单,然后每 k 个单位进行一次调查,其中 k 为一个特定数字。例如,可以选择每 10 个样本抽样一次。

相对而言,系统抽样既快捷又简单,但却有一个重大缺陷:如果总体中存在某种循环模式,则样本将会有偏倚。例如,如果糖球的生产工艺造成每到第 10 个糖球就是红色,那么你最终抽到的都是红色糖球,这会导致你对总体形成错误结论。

在这里插入图片描述

问:分层抽样和整群抽样有何区别?

答:分层抽样将总体划分为不同的组,或者叫做层,每一个层中的所有抽样单位相互之间尽量相似,也就是说,你认定一些特征或属性,例如性别,将其作为分层的依据。一旦将总体划分为层,就能对每个层进行简单随机抽样。

整群抽样的目的是将总体划分为多个群,同时尽量保证群与群相似,随后通过简单随机抽样选取群,再接着就是对这些群中的对象进行抽样。

抽样例题

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值