第七章:抽样与抽样分布(Sampling and sampling distribution)

本文介绍了统计学中的抽样方法,包括概率抽样(简单随机抽样、系统抽样、分层抽样、整群抽样)和非概率抽样,以及平均数的抽样分布概念。通过样本估计总体参数,强调了样本大小、抽样误差和非抽样误差的影响。
摘要由CSDN通过智能技术生成

前言:为什么我们需要样本?

  • 统计总体(population)有时过于昂贵/耗时长,样本(sample)提供了一种便捷的估计总体的方式
  • 适当的抽样方法能帮助我们获取更贴合总体特征的样本

一、先导知识

1、 点估计(point estimation)*

我们使用样本的data去计算一些用来估计population parameter的特殊的sample statistic的值。

在本章中我们关注
x ˉ \bar x xˉ : 作为population mean μ \mu μ 的point estimator;
p ˉ \bar p pˉ : 作为population proportion : p 的point estimator。

⬇︎

2、取样/非取样误差(sampling and non sampling error)

由于点估计不可避免的误差,我们使用error来估计sample statistic和population parameter间的误差

  • sampling error= x ˉ \bar x xˉ - μ \mu μ p ˉ \bar p pˉ - p
    sample size越大,sampling error越小
  • nonsampling error
    有倾向性的调查方式,数据采集失误所导致

3、术语大杂烩

  • 抽样元素/抽样单位(element):被分析的个体、单位、组织
  • 抽样总体(population/target population/population of interest):想调查的元素的集合
  • 样本(sample):抽样总体的子集
  • sampled population:我们所能调查到、从中获取sample的population
  • 抽样框(frame):我们将sampled population整理成名单(比如电话本,花名册等,我们给这堆population编号方便后续的sample的抽取)

!注意区分target population和sampled population:
前者是理想化的,我们想要调查的整个群体。但由于现实因素的限制,我们只能找到一个不完美的population(sampled population)进行调查。比如说,我想调查从古至今全人类的寿命,我无法获取古时的population parameters,我只能把现代人寿命数据作为一个sampled population。
同时我们希望sampled population是population的子集,而不要有population之外的元素。




二、抽样方法大全

1.概率抽样(probability sampling): 指每个元素都有已知的被抽取的概率,优点是可通过推断性统计(inferential statistical tests)来估计整体population

a.简单随机抽样(simple random sample)


每个元素有相等的概率被抽取,分为放回(with replacement)和不放回(without replacememt)两种

b.系统抽样(systematic sampling)

依据一定的抽样距离k,从总体中抽取样本
这里的k= N n \frac{N}{n} nN, 其中N为population,n为sample


优点:更方便收集

c.分层抽样(stratified sampling)

将population中元素分为互斥(mutually exclusive group)的分类特征组(strata),每个组有各自的特征,这种特征与想调查的东西有关。比如说,我要调查“喝奶茶的人数”,那么我把population分为“男生”“女生”两个strata。

分好组后,我按照比例,运用简单随机或系统抽样抽出最后的sample。

d.整群抽样(cluster sampling)

将population中的元素分为互斥的clusters,每个组都是整个population的代表。

分组后,运用geography随机抽取其中的少数clusters组成最后的sample

是一种成本低,精度低的方法。

注意,cd两种方法在抽样前都要经过一定的处理,c分类标准与调查内容有关,d无关(还是奶茶的例子,d会以人的姓的首字母作为分类标准,这和喝不喝奶茶没半毛钱关系);c群内差异小,群间差异大,d反之

2.非概率抽样(nonprobability sampling)

每个样本被抽中的概率未知

a.convenience

教授用自己的学生作为sample➡️不具有代表性

b.judgment

调查者凭借自己的经验选取sample➡️受主观因素影响



另外,我们将population分为finite与infinite两种类型,对他们我们有不同的处理方式。

①finite:使用简单随机抽样

实例如下➤大学收到900份水平相当的申请,要从中随机抽取30份申请。
首先,我们为900份申请编号
其次,在excel中使用RAND(),该函数可以生成大于等于0,小于1的随机数。
【若我们要生成0到5的随机数,=rand()*5】
使用INT(number):将数字向下舍入到最近的整数。
综合运用rand和int我们可以抽样出想要的sample数量,再用vlookup找到对应的样本个体。


具体示例➔link
vlookup教程➔link.

②infinite:这种情况下我们无法获取population中所有的数据。
此时我们从infinite population中随机取样(random sample),我们需要遵从的原则有两个➔

❶所有元素都必须来自同一个population of interest
❷每个元素都是独立(independently)选取的

怎么去理解这两个原则呢?假设我们要调查顾客对一家餐厅的喜爱程度,首先我们关注在餐厅消费的顾客人群而非去使用厕所的人。其次,独立选取意味着排除选择偏见,不选择特定的性别,也不同时调查一群饭友(他们有相同的喜好)



上述所说都是抽取sample的方法,接下来进入用sample估计population的阶段,因此我们挑选一些合适的point estimator。
首先来看看平均数


⬇︎

三、平均数的抽样分布(the sampling distribution of the mean)

过程:抽取有n个元素的random sample
\qquad 这个sample提供mean x ˉ \bar x xˉ
\qquad x ˉ \bar x xˉ去估计总体的 μ \mu

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值