目录:
第三章 抽样估计
3.1抽样估计基础
3.1.1随机事件
1.随机现象
自然界中有两类不同性质的现象。一类现象为必然现象,一类现象为随机现象。
2.样本空间
样本空间是随机现象的一切可能结果组成的集合。
例如抛一枚硬币的样本空间为:
3.随机事件
样本空间中某些元素组成的集合,即由随机现象的某些基本结果组成的集合叫随机事件。随机事件是样本空间的子集。
3.1.2随机事件的概率
随机事件的概率是随机事件出现的可能性的度量,它是概率论中最基本的概念之一。
1.条件概率
2.相互独立事件
3.1.3随机变量及其概率分布
1.随机变量
用来表示随机现象结果的变量称为随机变量,常用大写字母X,Y,Z....表示。离散随机型变量和连续型随机变量:
2.随机变量的概率分布
3.1.4随机变量的数字特征
随机变量X的分布(概率函数或密度函数)有几个重要的特征数,用来表示分布的集中位置(中心位置)和散步大小。
1.随机变量的数学期望
2.随机变量的方差和标准差
其中,D(X)=E(X^2)-[E(X)]^2
证明:E[X-E(X)]^2=E[X^2-2XE(X)+(E(X))^2]=E(X^2)-2E(X)E(X)+(E(X))^2=E(X^2)-(E(X))^2
3.2正态分布及三大分布
由于在进行数据分析时,大部分的分析对象都表现出一种正态分布的形态,因此数据分析师们必须掌握来自正态总体的分布,主要包括正态分布、卡方分布、T分布和F分布,了解其概率密度函数和分布形态就可以了。
3.2.1正态分布的概率密度函数
3.2.2正态分布的特征
3.2.3标准正态分布
1.标准正态分布的概率密度函数及图形
2.正态分布转换为标准正态分布
3.如何查标准正态分布表
4.正态分布的"3"原则
3.2.4基于正态分布的三大分布
4.三大分布的用途
分布:最常用于拟合优度检验。
F分布:多用于比例的估计和检验,用于方差分析、协方差分析和回归分析等。
t分布:在信息不足的情况下,只能用t分布,比如在整体方差不知的情况下,对总体均值的估计和检验通常用到t统计量。
3.3中心极限定理
3.3.1中心极限定理的提法
3.3.2中心极限定理的内容
1.隶美弗-拉普拉斯积分定理,2.林德伯格定理,3.李亚普诺夫定理
3.3.3中心极限定理的意义与应用
3.4抽样估计
3.4.1抽样估计概述
3.4.2抽样估计的基本概念
1.总体和样本
总体是人们研究对象的全体,它是由所有研究范围内具有某种共同性质的许多单位组成的集合体。例如我们要研究某城市职工的生活水平,则该城市的全体职工构成总体。
2.抽样方法
3.样本容量和样本数目
样本容量指样本中的单位数。样本容量在抽样设计中的一个十分重要的问题,因为样本容量大可以提高抽样的准确度,但成本要增大;样本容量小,则会降低抽样的准确率,但亦可以减少成本。
4.总体指标和样本统计量
5.样本均值统计量的分布
3.4.3抽样估计的误差
1.抽样误差
2.抽样平均误差
3.抽样极限误差
抽样平均误差说明某一抽样方案总体误差情况,但在实际进行抽样调查时,只抽取一个样本。那么这个样本的误差,可能大于或小于平均误差。对于该项抽样调查,一定会要求有一个允许误差的范围。这一允许误差的范围,就称作极限误差。
3.4.4抽样估计的理论基础
3.4.5抽样估计的方法
1.点估计
2.区间估计
3.4.6抽样的组织形式
3.4.7必要抽样数目的确定