抽样：理论与应用(第二版) 金勇进课程笔记 1～4章_抽样理论与应用第二版金勇进答案-CSDN博客

本文链接：https://blog.csdn.net/weixin_41992565/article/details/88069548

本文介绍了抽样调查的基本概念，包括抽样调查的类型、概率与非概率抽样、等概率与不等概率抽样，以及抽样调查在节省成本、提高数据质量和时效性方面的优势。探讨了目标总体与抽样总体的区别，抽样框的重要性，以及总体参数与统计量的计算方法。此外，还详细解析了估计量的方差、偏倚、均方误差，抽样误差与非抽样误差的区别，以及几种基本抽样方法，如简单随机抽样、整群抽样、多阶段抽样、系统抽样和分层抽样。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本章重点名词：抽样调查的类型，抽样调查与普查的关系，目标总体，抽样总体，抽样框，抽样单元，总体特征与估计量，方差，偏倚，均方误差，抽样误差，非抽样误差，精度。

1.1调查与抽样调查

1.1.1调查

略

1.1.2抽样调查

抽样调查：是一种非全面调查，是指从研究对象全体中抽取一部分单元作为样本，根据对所抽取样本进行调查获得有关总体目标的了解。
1.非概率抽样调查：判断选样，方便抽样，自愿样本，配额抽样。见书p3页，我觉得并不是重点。
2.概率抽样（定性分析/定量分析）：随机抽样，依据随机原则，按照某种事先设计的程序，从总体中抽取部分单元的抽样方法，它具有下面几个特点：
（1）排除主管上有意识的抽取单元，使没个单元都有一定机会被抽中。
（2）每个单元被抽中概率可计算
（3）估计两与样本单元观测值有关，也与入样概率有关，所以用样本估计总体需要考虑抽中概率。入样概率可计算，样本统计量分布因此可知，就具有样本推断总体理论基础
3.非概率抽样（定性分析）
需要掌握：能够论述什么情况下用概率抽样，什么情况下用非概率抽样

4.等概率抽样与不等概率抽样

1.等概率抽样，如果大家被抽到概率相同，权重就相同，

2.不等概率抽样权重不一样，数据的处理会复杂一些。有些时候不等概率会更有效率，

1.1.3抽样调查的作用

1.节约费用
2.时效性强
3.可以承担全面调查无法胜任的项目
4.有助于提高数据质量

1.1.4抽样调查与普查

普查优点：对于有关国计民生的重要现象，有时需要了解总体中每个单元的情况，这时就需要普查。如人口普查，全国经济普查，全国农业普查等。
抽样调查：
（1）对普查起到补充作用
（2）对普查进行修正
（3）进行深层次分析
（4）快速获得总体的估计量
（5）普查为抽样调查提供抽样框

1.1.5抽样调查应用领域

略

1.2 基本概念

1.2.1目标总体与抽样总体

目标总体：要研究对象的全体
抽样总体：从中抽取样本的总体

1.2.2抽样框与抽样单元

抽样框（重点）：
好的抽样框：一个抽样单元对应一个目标
抽样框缺陷：

属于目标总体，但未出现在抽样总体中
不属于目标总体，但出现在抽样总体内
多重连接，目标总体有1个被抽到的概率为 $\frac{k}{n}$
一个抽样单元对应三个目标单元
抽样框不同类型：
名录框，区域框，自然框

1.2.3总体参数与统计量

1.总体参数：抽取样本的目的是要得到总体的某些特征(参数)
总体参数四种类型：
(1) 总体均值：总体平均值
$Y_{mean}= \frac{1}{N}\sum_{i=1}^n{Y_i}$

(2) 总体总值：总体总量
$\sum_{i=1}^NY_i=NY_{mean}$

(3) 总体比例：如全部产品中合格品所占比例
$\frac{\sum_{i=1}^NY_i}{N}$

(4) 总体比率：它是两个总体总量或总体均值之比，如固定资产利用率，人均可支配收入变动率等
$\frac{Y}{X}=\frac{Y_{mean}}{X_{mean}}$
2.样本 ：把从总体中按一定程序抽出的部分总体基本单元的集合称为样本，样本中包含的基本单元的个数n称为样本量，统计量是根据样本n个单元的变量值计算出的一个量，也叫估计量。
估计量有：
（1）均值估计：用样本均值作为总体均值的估计
$\hat{\overline{Y}}=\overline{y}=\frac{1}{n}\sum_{i=1}^ny_i$
其中 $y_i$ 代表第i个样本单元的观测值
（2）总值估计：用样本均值和总体单元数得到总值估计。
$\hat{Y}=N\overline{y}=\frac{N}{n}\sum_{i=1}^ny_i$
(3) 比例估计，用样本比例作为总体比例的估计
$\hat{P} = p=\frac{1}{n}\sum_{i=1}^ny_i$
$y_i$ 为示性变量，只有1，0
（4）比率估计：用样本比率作为总体比率的估计
$\hat{R}=r=\frac{\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i}=\frac{\overline{y}}{\overline{x}}$

1.2.4 估计两方差、偏倚、均方误差

1.估计量方差表达式 ：方差反应随机因素
$V(\hat{\theta})=E[\hat{\theta}-E(\hat{\theta})]^2$
$\hat{\theta}$ 为总体参数 $\theta$ 的估计， $E(\hat{\theta})$ 为估计值的数学期望
2.偏倚 ：root mean square 与MSE没区别（这里我希望叫他偏差）
误差为0就是无偏估计量

1.2.5 抽样误差与非抽样误差

抽样误差：由于抽样的随机性引起的，样本总量对总体参数推断时候产生的误差，特征是他的误差可计算。

可控制
可计算
在其他条件相同情况下，样本量越大抽样误差越小，
如果抽样误差很大:增大样本量减小误差，更改抽样方法。
非抽样误差：除了抽样误差以外由其他原因带来的误差，可分三类

（1）抽样框误差

（2）无回答误差（缺失数据）

（3）计量误差（调查环境影响：如测视力，跟光有关系，跟距离有关系，环境有关系）

1.3几种基本抽样方法

1.3.1 简单随机抽样（simple random sampling)

简单随机抽样是最简单不加其他条件，是其他抽样方法的基础

简单随机抽样实现方式有两种

1.放回抽样：抽取过程中每次抽取都是独立的，但可能使得单元被重复抽到，在统计学中每次抽取都是一个独立事件，没个样本随机抽取概率相等

2.无放回抽样:（条件概率）
无论是又放回抽样还是无放回抽样被抽取到的概率都是相等的，
如200个同学无放回抽样，第二次抽取的概率为 $\frac{199}{200}*\frac{1}{199}$

3.实施方法

-抽签

-随机数表

-计算机抽取

当样本趋于无穷，小s方差是大S方差无偏估计

随机抽样能够抽取样本组合可能性 $N^n$ （有放回）

公式：详看书上公式和例题

1.3.3整群抽样（cluster sampling)

将总体中若干个基本单元合并为组，这样的组称为群，抽样时直接抽取群，然后对选择的群所有基本单位进行调查。

1.3.4多阶段抽样

采用类似整群抽样的方法，首先抽取群，但并不是调查群内的所有基本单元，而是在进行一步抽样，从选中的群中抽取若干个基本单元进行调查。

1.3.5系统抽样（systematic sampling)

将总体中所有单元按一定顺序排列，在规定范围内抽取一个单元作为初始单元，然后按照事先定好的规则抽取其他单元
如r+k,r+2k,…r+nk

在这里插入图片描述
4.计算样本量时候需要总体方差，当总体方差不知道时候需要怎么办，需要估计总体方差，（在实际计算中用样本方差计算，是理论估计）这也解释了下面的公式我们无法得到S时候怎么办。

允许抽样误差代表置信区间范围，区间太大就没有意义，区间范围由设计人员确定。

t：概率度计算代表正太分布中正负1.96倍标准差，使误差 $\alpha$ =0.05,也就是正确概率为0.95
推断分三个阶段：1.计算点估计值，2.计算估计点误差，3.计算置信区间
1.点估计
$\overline{y}=\frac{1}{n}\sum^ny_i$
2.计算估计点误差
$v(\overline{y})=(1-f)\frac{s^2}{n}$
3.计算总体参数置信区间

在这里插入图片描述
需要会讨论样本量需要条件：总体情况，误差要求，置信区间要求。

c0为费用并无直接关系，c1为单位，需要去考虑允许误差，方差，与费用的关系

根据方差和允许误差 $\Delta$ 求样本量：
在这里插入图片描述

国外研究：数据控制在什么范围数据最有力，最省钱，质量最高===相对控制在0.05， 0.05-0.1是常规范围

例如飞船的零件和超市卖的香肠的直径误差，精度有不同判别标准，飞船肯定需要误差越小越好，而火腿肠则不需要误差很小。
抽样最适合的领域是大范围的，规模越大抽样调查越高。
论述题：简单随机抽样有关问题，什么是简单随机抽样，他的特征，样本量分配，影响样本量的因素，计算题：计算均值，计算比率，计算样本量等

1.3.2 分层抽样（stratified sampling)

分层原则：层内方差尽可能小，层间方差尽可能大。（展开描述）
将抽样单元按某种特征或某种规则划分为不同的层，然后从不通的层中独立、随机的抽取样本，然后在合并起来。如一大锅汤，尝一勺就知道咸淡，因为总体样本量方差很小，每个位置的分布都是一样的。所以我们要分的层
在这里插入图片描述

k可以看出在计算样本点估计的时候只是增加了 $W_i$ （权重），而 $W_i$ 为i层样本总量与总体量的比值 $\frac{n}{N}$