抽样:理论与应用(第二版) 金勇进 课程笔记 1~4章

本章重点名词:抽样调查的类型,抽样调查与普查的关系,目标总体,抽样总体,抽样框,抽样单元,总体特征与估计量,方差,偏倚,均方误差,抽样误差,非抽样误差,精度。

1.1调查与抽样调查


1.1.1调查

1.1.2抽样调查

抽样调查: 是一种非全面调查,是指从研究对象全体中抽取一部分单元作为样本,根据对所抽取样本进行调查获得有关总体目标的了解。
1.非概率抽样调查:判断选样,方便抽样,自愿样本,配额抽样。 见书p3页,我觉得并不是重点。
2.概率抽样(定性分析/定量分析):随机抽样,依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法,它具有下面几个特点:
(1)排除主管上有意识的抽取单元,使没个单元都有一定机会被抽中。
(2)每个单元被抽中概率可计算
(3)估计两与样本单元观测值有关,也与入样概率有关,所以用样本估计总体需要考虑抽中概率。入样概率可计算,样本统计量分布因此可知,就具有样本推断总体理论基础
3.非概率抽样(定性分析)
需要掌握: 能够论述什么情况下用概率抽样,什么情况下用非概率抽样

4.等概率抽样与不等概率抽样

1.等概率抽样, 如果大家被抽到概率相同,权重就相同,

2.不等概率抽样权重不一样,数据的处理会复杂一些。有些时候不等概率会更有效率,

1.1.3抽样调查的作用

1.节约费用
2.时效性强
3.可以承担全面调查无法胜任的项目
4.有助于提高数据质量

1.1.4抽样调查与普查

普查优点:对于有关国计民生的重要现象,有时需要了解总体中每个单元的情况,这时就需要普查。如人口普查,全国经济普查,全国农业普查等。
抽样调查:
(1)对普查起到补充作用
(2)对普查进行修正
(3)进行深层次分析
(4)快速获得总体的估计量
(5)普查为抽样调查提供抽样框

1.1.5抽样调查应用领域

1.2 基本概念


1.2.1目标总体与抽样总体

目标总体:要研究对象的全体
抽样总体:从中抽取样本的总体

1.2.2抽样框与抽样单元

抽样框(重点)
好的抽样框:一个抽样单元对应一个目标
抽样框缺陷:

  • 属于目标总体,但未出现在抽样总体中
  • 不属于目标总体,但出现在抽样总体内
  • 多重连接,目标总体有1个被抽到的概率为 k n \frac{k}{n} nk
  • 一个抽样单元对应三个目标单元
    抽样框不同类型:
    名录框,区域框,自然框

1.2.3总体参数与统计量

1.总体参数:抽取样本的目的是要得到总体的某些特征(参数)
总体参数四种类型
(1) 总体均值:总体平均值
Y m e a n = 1 N ∑ i = 1 n Y i Y_{mean}= \frac{1}{N}\sum_{i=1}^n{Y_i} Ymean=N1i=1nYi

(2) 总体总值:总体总量
Y = ∑ i = 1 N Y i = N Y m e a n Y = \sum_{i=1}^NY_i=NY_{mean} Y=i=1NYi=NYmean

(3) 总体比例:如全部产品中合格品所占比例
P = ∑ i = 1 N Y i N P = \frac{\sum_{i=1}^NY_i}{N} P=Ni=1NYi

(4) 总体比率:它是两个总体总量或总体均值之比,如固定资产利用率,人均可支配收入变动率等
R = Y X = Y m e a n X m e a n R = \frac{Y}{X}=\frac{Y_{mean}}{X_{mean}} R=XY=XmeanYmean
2.样本 :把从总体中按一定程序抽出的部分总体基本单元的集合称为样本,样本中包含的基本单元的个数n称为样本量,统计量是根据样本n个单元的变量值计算出的一个量,也叫估计量。
估计量有
(1)均值估计:用样本均值作为总体均值的估计
Y ‾ ^ = y ‾ = 1 n ∑ i = 1 n y i \hat{\overline{Y}}=\overline{y}=\frac{1}{n}\sum_{i=1}^ny_i Y^=y=n1i=1nyi
其中 y i y_i yi代表第i个样本单元的观测值
(2)总值估计:用样本均值和总体单元数得到总值估计。
Y ^ = N y ‾ = N n ∑ i = 1 n y i \hat{Y}=N\overline{y}=\frac{N}{n}\sum_{i=1}^ny_i Y^=Ny=nNi=1nyi
(3) 比例估计,用样本比例作为总体比例的估计
P ^ = p = 1 n ∑ i = 1 n y i \hat{P} = p=\frac{1}{n}\sum_{i=1}^ny_i P^=p=n1i=1nyi
y i y_i yi为示性变量,只有1,0
(4)比率估计:用样本比率作为总体比率的估计
R ^ = r = ∑ i = 1 n y i ∑ i = 1 n x i = y ‾ x ‾ \hat{R}=r=\frac{\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i}=\frac{\overline{y}}{\overline{x}} R^=r=i=1nxii=1nyi=xy

1.2.4 估计两方差、偏倚、均方误差

1.估计量方差表达式 :方差反应随机因素
V ( θ ^ ) = E [ θ ^ − E ( θ ^ ) ] 2 V(\hat{\theta})=E[\hat{\theta}-E(\hat{\theta})]^2 V(θ^)=E[θ^E(θ^)]2
θ ^ \hat{\theta} θ^为总体参数 θ \theta θ的估计, E ( θ ^ ) E(\hat{\theta}) E(θ^)为估计值的数学期望
2.偏倚 :root mean square 与MSE没区别(这里我希望叫他偏差)
误差为0就是无偏估计量

1.2.5 抽样误差与非抽样误差

抽样误差:由于抽样的随机性引起的,样本总量对总体参数推断时候产生的误差,特征是他的误差可计算。

  • 可控制
  • 可计算
  • 在其他条件相同情况下,样本量越大抽样误差越小,
  • 如果抽样误差很大:增大样本量减小误差,更改抽样方法。
    非抽样误差:除了抽样误差以外由其他原因带来的误差,可分三类

(1)抽样框误差

(2)无回答误差(缺失数据)

(3)计量误差 (调查环境影响:如测视力,跟光有关系,跟距离有关系,环境有关系)

1.3几种基本抽样方法


1.3.1 简单随机抽样(simple random sampling)

简单随机抽样是最简单不加其他条件,是其他抽样方法的基础

简单随机抽样实现方式有两种

1.放回抽样:抽取过程中每次抽取都是独立的,但可能使得单元被重复抽到,在统计学中每次抽取都是一个独立事件,没个样本随机抽取概率相等

2.无放回抽样:(条件概率)
无论是又放回抽样还是无放回抽样被抽取到的概率都是相等的,
如200个同学无放回抽样,第二次抽取的概率为 199 200 ∗ 1 199 \frac{199}{200}*\frac{1}{199} 2001991991

3.实施方法

-抽签

-随机数表

-计算机抽取

当样本趋于无穷,小s方差 是大S方差无偏估计

随机抽样能够抽取样本组合可能性 N n N^n Nn(有放回)

公式 :详看书上公式和例题

1.3.3整群抽样(cluster sampling)

将总体中若干个基本单元合并为组,这样的组称为群,抽样时直接抽取群,然后对选择的群所有基本单位进行调查。

1.3.4多阶段抽样

采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有基本单元,而是在进行一步抽样,从选中的群中抽取若干个基本单元进行调查。

1.3.5系统抽样(systematic sampling)

将总体中所有单元按一定顺序排列,在规定范围内抽取一个单元作为初始单元,然后按照事先定好的规则抽取其他单元
如r+k,r+2k,…r+nk

在这里插入图片描述
4.计算样本量时候需要总体方差,当总体方差不知道时候需要怎么办,需要估计总体方差,(在实际计算中用样本方差计算,是理论估计)这也解释了下面的公式我们无法得到S时候怎么办。
在这里插入图片描述
在这里插入图片描述
允许抽样误差代表置信区间范围,区间太大就没有意义,区间范围由设计人员确定。

t:概率度计算代表正太分布中正负1.96倍标准差,使误差 α \alpha α=0.05,也就是正确概率为0.95
推断分三个阶段:1.计算点估计值,2.计算估计点误差,3.计算置信区间
1.点估计
y ‾ = 1 n ∑ n y i \overline{y}=\frac{1}{n}\sum^ny_i y=n1nyi
2.计算估计点误差
v ( y ‾ ) = ( 1 − f ) s 2 n v(\overline{y})=(1-f)\frac{s^2}{n} v(y)=(1f)ns2
3.计算总体参数置信区间

在这里插入图片描述
需要会讨论样本量需要条件:总体情况,误差要求,置信区间要求。
在这里插入图片描述
c0为费用并无直接关系,c1为单位,需要去考虑允许误差,方差,与费用的关系

根据方差和允许误差 Δ \Delta Δ 求样本量:
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
国外研究:数据控制在什么范围数据最有力,最省钱,质量最高===相对控制在0.05, 0.05-0.1是常规范围
在这里插入图片描述
例如飞船的零件和超市卖的香肠的直径误差,精度有不同判别标准,飞船肯定需要误差越小越好,而火腿肠则不需要误差很小。
抽样最适合的领域是大范围的,规模越大抽样调查越高。
论述题:简单随机抽样有关问题,什么是简单随机抽样,他的特征,样本量分配,影响样本量的因素, 计算题:计算均值,计算比率,计算样本量等

1.3.2 分层抽样(stratified sampling)

分层原则:层内方差尽可能小,层间方差尽可能大。(展开描述)
将抽样单元按某种特征或某种规则划分为不同的层,然后从不通的层中独立、随机的抽取样本,然后在合并起来。如一大锅汤,尝一勺就知道咸淡,因为总体样本量方差很小,每个位置的分布都是一样的。所以我们要分的层
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
k可以看出在计算样本点估计的时候只是增加了 W i W_i Wi(权重),而 W i W_i Wi为i层样本总量与总体量的比值 n N \frac{n}{N} Nn
在这里插入图片描述

同样在估计点方差计算上也是在求每层方差* W i W_i Wi后求和
在这里插入图片描述
如何分配每层抽取样本数,最优方法是内曼分配,当不满足内曼分配时应该选择按比例分配。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 缺失数据是在统计分析中常常会遇到的一种情况,非常重要且需要特殊处理的问题。在数据分析过程中,缺失数据会导致样本数量减少,进而影响分析结果的准确性和可靠性。因此,对于缺失数据的统计处理是十分重要的。 针对缺失数据,可以采用以下几种常见的处理方法。 1. 删除缺失数据:如果缺失数据的比例很低且这些数据对整体分析影响较小,可以选择删除这部分缺失的数据。但是,需要小心不要删除过多数据以至于影响整体分析结果的准确性。 2. 插补缺失数据:当缺失数据的比例较高或者删除缺失数据不可行时,可以采用插补方法来填补这些缺失值。常用的插补方法包括均值插补、中位数插补、回归插补等。选择适当的插补方法要根据数据的特点和研究的目的来确定。 3. 分析缺失数据:缺失数据可能有其特定的原因,可以对缺失数据进行分析,了解其产生的原因,并在分析中进行相应的调整。例如,可以将缺失数据作为一个独立的变量引入模型中,或者进行分组分析等。 无论采用哪种方法处理缺失数据,在进行统计分析时都需要对处理过程进行透明和记录,以确保结果的可靠性和可复现性。此外,需要注意的是,不同处理方法可能会对结果产生不同的影响,因此在进行统计分析时需要进行敏感性分析和结果的鲁棒性验证。 综上所述,缺失数据的统计处理需要根据具体的情况采取合适的方法,同时要进行透明的处理和结果验证,以保证统计分析的准确性和可靠性。 ### 回答2: 缺失数据是指在数据分析中,部分数据因某些原因无法获得或记录,这样的数据称为缺失数据。在统计分析中,我们经常遇到缺失数据,因为它们可能对结果产生影响,因此需要进行统计处理。 首先,处理缺失数据的一种方法是删除缺失的数据点。但是,这可能导致样本量减少,从而影响结果的可靠性和准确性。因此,我们需要根据数据的缺失性质和缺失数据的比例来决定是否删除缺失数据。 第二种方法是使用插补方法,通过填充缺失值来估计真实值。常用的插补方法有均值插补、中值插补、回归插补等。均值插补方法使用变量的均值来填充缺失值,中值插补方法使用变量的中位数来填充缺失值,回归插补方法则是根据其他相关变量的值来预测缺失值。 第三种方法是建立模型来预测缺失数据。根据已有数据的模式和规律,可以建立回归模型或其他模型来预测缺失数据的值。这种方法需要依赖其他变量的信息,因此需要确保这些变量与缺失数据是相关的。 最后,我们还可以将缺失数据看作一个额外的分组,将其作为一个新的分类变量进行分析。这种方法可以避免删除数据或插补数据,但需要确保缺失数据的分布是符合统计假设的。 综上所述,缺失数据的统计处理可以通过删除、插补、预测或将其视为额外的分类变量来进行。选择合适的方法需要根据数据的性质、缺失数据的比例和分析的目的来决定。在任何情况下,我们都应该在处理缺失数据时谨慎地进行统计分析,并在结果中明确说明缺失数据处理的方法和影响。 ### 回答3: 缺失数据是在数据分析过程中常见的问题,需要进行合理的统计处理。金勇进的文《缺失数据的统计处理》提供了一些方法和指导原则。 首先,文介绍了缺失数据的分类。缺失数据可以分为完全随机缺失、随机缺失和非随机缺失。了解缺失数据的分类有助于选择合适的处理方法。 其次,文提到了一些常用的缺失数据处理方法。其中包括完全记录删除法、均值代替法、最大值代替法、最小值代替法、回归代替法、概率代替法等。这些方法各有优缺点,需要根据实际情况选择合适的方法。 此外,文还介绍了多重插补方法。多重插补方法是一种较为高级的缺失数据处理方法,它可以通过建立模型来预测缺失值。多重插补方法能够更准确地还原数据的真实情况,但需要较为复杂的计算过程。 最后,文强调了在使用缺失数据处理方法时应注意的问题。例如,应确保缺失数据是随机的、应避免数据的偏倚、应选择合适的插补变量等。 总的来说,金勇进的文《缺失数据的统计处理》提供了关于缺失数据处理的介绍和指导。在实际应用中,需要根据具体问题和数据情况选择合适的处理方法,确保数据的准确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值