【数据分析师 Level 1 】3.抽样分布及参数估计
抽样分布及参数估计
1.随机的基本概念
随机实验
随机实验是概率论的一个基本概念。概括的讲,在概率论中把符合下面三个特点的试验叫做随机试验
- 可以在相同的条件下重复的进行
- 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果
- 进行一次试验之前不能确定哪一个结果会出现
随机事件
在概率论中,随机事件(或简称事件)指的是一个被赋予几率的事物的集合,也就是样本空间中的一个子集。简单来说,在一次随机试验中,某个特定时间可能会出现也可能不会出现;但是当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。
随机变量
设随机试验的样本空间
2.概率分布
正态分布的图像形式
既然介绍变量的分布情况,就要介绍一下正态分布。首先,正态分布是关于均值左右对称的,呈钟形,如下图所示。其次,正态分布的均值和标准差具有代表性,只要知道其均值和标准差,这个变量的分布情况就完全知道了。在正态分布中,均值=中位数=众数
3.抽样分布
中心极限定理
从均值为
根据中心极限定理,我们知道如果做很多次抽样的话会得到很多个样本均值,而这些样本均值排列起来会形成正态分布,他们的平均数是
换句话说,有约68% 的样本均值会落在
有约 95%的样本均值会落在
有约 99.7%的样本均值会落在
把上述说法稍微转换一下就变成:
有68%的
有95%的
有99.7%的
而这就是抽样和估计最根本的道理
我们从全体之中以随机抽样方式抽取n个样本,取得样本观察值,计算它们的平均数
如果我们不放心的话,可以用
中心极限定理:不论总体是什么样的形状,只要在假定总体分布不是很偏的情况下,总体选择足够多的情况下,选取的总体样本均值就可以估计总体样本均值的指标,抽样出来的中位数、众数都可以认为和总体是差不多的,是具有代表性的
参数估计
1.点估计
用样本平均数
根据中心极限定理和正态分布的特性我们知道
说的更确切一点,以95%的置信水平为例,它的意思是:如果我们进行一百次独立抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有96个正确地包含着全体平均数
2.区间估计
刚刚提到过一个好的估计必须既准又稳,我们用
这就要看
至少有两种方法来估计
本章要求我们对抽样估计的理论、抽样的多种组织形式的掌握 定必要样本容量的原因,必要样本容量的影响因素 明确概率统计的各个知识点与业务环境、数据分析三者间的对应关系
例题
1.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为()
A.
B.
C.
D.
答案:B
解析:熟悉中心极限定理的概念
2.从均值为
A.当n充分大时,样本均值
B.只有当n<30时,样本均值
C.样本均值
D.无论n多大,样本均值
答案:A
解析:熟悉大数定律
3.某中小企业某部门员工的年龄分布是右偏的,均值为26,标准差是4.5.如果采取重复抽样的方法从部门抽取容量为100的样本,则抽样均值的抽样分布是()
A.正态分布,均值为26,标准差为0.45
B.分布形状未知,均值为26,标准差为4.5
C.正态分布,均值为26,标准差为4.5
D.分布形状未知,均值为26,标准差0.45
答案:A
解析:不管总体分布是何种分布,抽样分布都是符合正态分布的,对于该题中描述的对中小企业的某部门员工进行重复又放回抽样,此时100个样本量可看为已经充分大,根据中心极限定理, 样本均值
4.大样本的样本比例的抽样分布服从()
A.正态分布
B. t分布
C. F分布
D.
答案:A
解析:由二项分布的原理和渐进分布的理论可知,当n充分大时,样本比例的分布可用正态分布去逼近
5.大样本的样本比例之差的抽样分布服从()
A.正态分布
B. t分布
C. F分布
D.
答案:A
6.估计量的含义是指()
A.用来估计总体参数的统计量的具体数值
B.用来估计总体参数的统计量的名称
C.总体参数的具体数值
D.总体参数的名称
答案:B
解析:熟悉估计量和估计值的定义
7.有关置信区间不正确的是
A. 100次独立抽样,产生的区间估计,会有95次的可能正确预测总体平均数
B. 1次独立抽样,产生的区间估计,会有95%的可能正确预测总体平均数
C. 100次独立抽样,产生的点估计,会有95个总体平均数一致
D. 100次独立抽样,产生的区间估计,会有95个正确地包含着总体平均数
答案:ABC
解析:置信区间是包含的概念,而不能用于预测
8.在其他条件都不变的情况下,提高置信水平(或置信度),那么置信区间会()
A.变大
B.变小
C.不会有变化
D.有的情况变大,有的情况变小
答案:A
解析:提高置信水平就是提高置信区间 σ,则置信区间变大
Question:什么是置信水平,什么是置信区间?
9.在置信水平不变的情况下,要缩小置信区间,则需要()
A.改变统计量的抽样标准差
B.减少样本量
C.增加样本量
D.保持样本量不变
答案:C
解析:熟悉置信区间的定义。当置信水平固定时,置信区间的宽度随样本量的增大而减小,换言之,较大的样本所提供的有关总体的信息要比较小的样本多
10.在小样本条件下,当正态总体的方差未知时,估计总体均值使用的分布是()
A.正态分布
B. t 分布
C. F 分布
D.
答案:B
解析:熟悉总体参数估计得不同情况
11.两个总体方差比的区间估计,使用的分布是()
A.正态分布
B. t 分布
C. F 分布
D.
答案:D
12.抽取一个容量为400的随机样本,其均值为80,标准差s=10,总体均值的95%的置信区间为()
A. 80±1.96
B. 80±0.98
C. 80±0.8
D. 80±1.29
答案:B
解析:95%的置信水平为1.96,总体均值为80±1.96*10/20
13.从一个正态总体中随机抽取一个容量为n的样本,其均值和标准差分别为35和4.当n=25时,构造总体均值的95%的置信区间为()
A. 35±1.96
B. 35±2.22
C. 35±4.97
D. 35±1.65
答案:D
解析:在正态分布下总体均值的区间估计中,由于样本量小于30,属于小样本,其当前总体标准差未知,所以采用t分布
当样本量足够大的时候,采用的是Z统计量来近似正态分布的估计
如果样本量是小于30的,采用的是t统计量来对总体均值进行估计