碎碎念:小编在本科期间参加了大部分的比赛,诸如数学建模、正大杯、互联网+等,大部分比赛中对于统计学科的知识都有一定的要求。大部分统计的科目都相对枯燥难懂,北大复旦教材入门都较为困难,很幸运小编的一些授课老师较为负责耐心,一些科目讲的深入浅出,让我受益很多。所以想要把一些关键适用的科目原理及框架搭建起来和大家分享。
第一次更新:2024/4/1
一.抽样调查
1.概念理解
抽样调查相信对于各个学科的同学都不陌生,无非是在一定的总体下抽取一部分样本,而在统计这门学科中会关注更多的部分,包括不同的抽样方法、方法的优缺点、如何实现等等。
首先我们先来初步了解一下抽样调查的概念:抽样调查是一种非全面调查,抽样调查是根据随机的原则从总体中抽取部分实际数据进行调查,并运用概率估计方法,根据样本数据推算总体相应的数量指标的一种统计分析方法。抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。(摘自百度百科)
我们将这个名词分开理解:抽样——即按照一定的程序对总体中是部分进行抽取,其目的是进行推测。调查——即获取信息的方式,其中获取数据信息的调查被称为统计调查。不难看出,抽样调查的根本目的就是想要通过获取样本的信息,来对总体的某些特性(主要是总体的数字特征)进行推测。
其次我们对抽样调查的具体分类作进一步了解:
依据样本的容量抽样调查可分为两类:全面调查(又称为普查)与非全面调查,非全面调查也就是我门广义上默认的抽样调查;依据抽样的概率可将非全面调查细分为两类:概率抽样与非概率抽样,概率抽样是指按照随即原则进行抽样,总体中的每一个单位都有一个事先已知的非零概率(即入样概率)被抽中;依据入样概率的差异可将概率抽样细分为等概率抽样和不等概率抽样。
概率抽样与非概率抽样最大的区别之处在于主观影响因素,概率抽样又被称为随机抽样,是按照随即原则进行样本抽取的,我们常见的简单随机抽样、分层抽样、系统抽样、整群抽样、多阶抽样都是概率抽样;而非概率抽样在抽样过程中受主观影响较大,遵循简易原则。
非概率抽样是我们实际生活中运用较多的抽样手段,下面对不同的非概率抽样进行举例理解:
随意抽样是指不遵循任何方式,主观选定单元进行抽样,如街头采访等;
判断抽样是指凭借自身经验进行主观判断选择抽样单元,如对福建省旅游市场状况进行调查,有关部门选择厦门、武夷山、泰宁金湖等旅游风景区做为样本调查;
配额抽样是指依据总体的某些特征比例进行抽样,如根据某地区的年龄配额、收入配额等进行抽样;
滚雪球抽样是指通过一个关键样本进行扩散调查,如靠朋友转发或者群发收集问卷;
志愿者抽样是指对调查主题感兴趣的人群进行抽样,如在微博某一话题下收集相关的调查问卷;
流动总体抽样是指总体在不断改变,如野生动物数量估计。
2.实施步骤
在实际的抽样操作中通常包括以下几个步骤:
1)明确调查目的
2)进行调查准备:确定调查的总体以及目标量、编制抽样框、数据收集、抽样设计、问卷设计
3)实际调查:数据质量保证、数据保管等
4)数据处理:数据收集录入、数据检验、模型分析等
5)结论与建议
3.统计特性
抽样调查学科所研究的问题是数理统计的发展,在抽样方式中不仅仅在局限于有放回抽样,更多的是无放回的实际抽样。那我们来进一步解释一下有放回和无放回抽样的区别:有放回抽样可以保证每一次抽样的“环境”是一定的,每一次抽取的随机变量之间互不影响,也就是我们统计中常说的随机变量之间是相互独立的;而无放回抽样就会使得每一次抽取的“环境”发生变化,比如筐子里一共有5个红苹果5个绿苹果,我们每抽取一个,框子内剩下的苹果的比例和总数就不同了,这就会导致每一次抽取的结果都会相互影响,即随机变量间不独立。
在抽样调查中通常用大写字母来描述总体的统计特征,用小写字母来描述样本的统计特征。对于总体单元的特定指标所对应的指标量为{
},样本对应数量 指标为{
}
总体总和为 总体均值为
;
总体方差为
4.估计优良性
在样本估计总体的过程中我们通常会选择很多方法来实现“估计”,如极大似然估计、点估计等等,但不是所有的方法都可以在估计中随便用,选择哪种方法取决于该方法是否适合这个总体,如何评判是否适合呢?伟大的统计学家们便通过构建一些统计量进行评判。这里规定想要研究的样本统计量为,总体数字特征为
:
1.无偏性
无偏性的含义是:由于未知参数的估计量是一个随机变量(也就是),选取的样本它有不同的估计量.这些估计量对于参数的真实取值
,一般都会有偏差,要求不出现偏差几乎是不可能的。但是,总希望在多次试验中所得到的估计量的平均值与参数的真实值相吻合。无偏性所衡量的可以理解为样本对于参数的估计值的均值和总体参数之间的差距,差距越小当然就说明我们选取的估计方法越好了。
数学定义式为:
我们所要估计的总体数字特征可视为常数,因此在取期望时可以直接用;由于每一次抽取样本是不确定的,所以利用样本所求得的统计量
也是不一样的,是一个随机变量。
2.均方偏差MSE
MSE用来显示样本估计值的集合与总体被估计参数的平均差异。试想下面的类比:假设“参数”是靶子的靶心,“估计量”是向靶子射箭的过程,而每一支箭则是“估计值”(样本)。那么,高均方误差就意味着每一支箭离靶心的平均距离较大,低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚,也可能不。比如说,即使所有箭支都射中了同一个点,同时却严重偏离了靶子,均方误差相对来说依然很大。在衡量估计量的优良性时,通常MSE比无偏性更有说服力。
数学定义式为:
MSE的公式和方差的公式是不是很相似?一定要注意辨认,方差的定义式为:方差所衡量的是随机变量和其数学期望(即均值)之间的偏离程度。根据方差的公式我们可以进一步将MSE公式化简:
后记:欢迎大家批评指正哦~