概率论与数理统计教程(五)-统计量及其分布01:总体与样本

本文介绍了统计学的基本概念,包括总体与样本。总体是指研究对象的全体,而样本是从总体中随机抽取的部分。在实际问题中,总体的参数往往是未知的,例如不合格品率或产品质量分布。通过抽样和分析样本,可以推断总体的性质。文章通过多个实例阐述了总体的定义,强调了样本的随机性和独立性在统计推断中的重要性。
摘要由CSDN通过智能技术生成

第五章
统计量及其分布
前四章的研究属于概率论的范畴.我们已经看到,
随机变量及其概率分布全面地描述了随机现象的统计性质.
在概率论的许多问题中,
概率分布通常被假定为已知的,而一切计算及推理均基于这个已知的分布进行.
在实际问题中, 情况往往并非如此, 看一个例子.
例 5.0.1 某公司要采购一批产品, 每件产品不是合格品就是不合格品,
但该批产品总有一个不合格品率 p p p. 由此, 若从该批产品中随机抽取一件, 用
X X X 表示抽出产品的不合格品数, 不难看出 X X X 服从一个二点分布 b ( 1 , p ) b(1, p) b(1,p),
但分布中的参数 p p p 却是不知道的.显然, p p p 的大小决定了该批产品的质量,
它直接影响采购行为的经济效益. 因此, 人们会对 p p p 提出一些问题, 比如,
- p p p 的大小如何.
- p p p 大概落在什么范围内.
- 能否认为 p p p 满足设定要求 (如 p ⩽ 0.05 p \leqslant 0.05 p0.05 ).
诸如例 5.0.1 研究的问题属于统计学的范畴.
统计学是一门应用性非常强的学科,它的历史已有三百多年,
即使从皮尔逊(K.Pearson, 1857-1936) 和费希尔 (R.A.Fisher, 1890-1962)
的工作算起, 统计学的发展也已有近二百年的历史,
并且取得了良好的社会和经济效益.
一般认为,
统计学是一门研究如何有效地收集和分析受到随机影响数据的学科.经过多年的研究和发展,
统计学已深人到了多个学科中, 可以说, 凡是一个实际问题涉及一批数据,
我们都可以且应该利用统计学方法去分析它、解决它.随着统计学的发展和完善,
其研究内容已非常丰富, 且形成了多个学科分支,
如抽样调查、试验设计、回归分析、多元统计分析、时间序列分析、非参数统计、贝叶斯
(Bayes) 方法, 等等.
下面我们从统计学最基本的概念------总体和样本开始介绍统计学内容.
§ 5.1 总体与样本
5.1.1 总体与个体
在一个统计问题中, 我们把研究对象的全体称为总体,
构成总体的每个成员称为个体. 对多数实际问题,
总体中的个体是一些实在的人或物. 比如, 我们要研究某大学的
学生身高情况, 则该大学的全体学生构成问题的总体,
而每一个学生即是一个个体. 事实上,每个学生有许多特征:
性别、年龄、身高、体重、民族、籍贯, 等等,
而在该问题中,我们关心的只是该校学生的身高如何, 对其他的特征暂不予考虑.
这样, 每个学生(个体) 所具有的数量指标值一一身高就是个体,
而将所有身高全体看成总体. 这样一来,若抛开实际背景, 总体就是一堆数,
这堆数中有大有小, 有的出现的机会大, 有的出现机会小,
因此用一个概率分布去描述和归纳总体是恰当的, 从这个意义看,
总体就是一个分布, 而其数量指标就是服从这个分布的随机变量. 以后说
"从总体中抽样"与 “从某分布中抽样” 是同一个意思.
例 5.1.1 磁带的一个质量指标是一卷磁带 ( 20   m ) (20 \mathrm{~m}) (20 m) 上的伤痕数.
每卷磁带都有一个伤痕数,全部磁带的伤痕数构成一个总体.
这个总体中相当一部分是 0 (无伤痕,合格品), 但也有 1 , 2 , 3 1,2,3 1,2,3 等, 但多于 8
个的伤痕数非常少见. 研究表明,一卷磁带上的伤痕数 X X X 服从泊松分布
P ( λ ) P(\lambda) P(λ),但分布中的参数 λ \lambda λ 却是不知道的. 显然, λ \lambda λ
的大小决定了一批产品的质量, 它直接影响生产方的经济效益.
本例中总体分布的类型是明确的, 是泊松分布, 但总体还含有未知参数
λ \lambda λ, 故总体还不是一个特定的泊松分布. 要确定最终的总体分布,
就是要确定 λ \lambda λ, 这是统计学科的任务.
例 5.1 .2 考察常见的测量问题.一个测量者对一个物理量 μ \mu μ 进行重复测量,
此时每次可能的测量结果是 ( − ∞ , ∞ ) (-\infty, \infty) (,) 中的一个实数,
因此总体是一个取值于 ( − ∞ , ∞ ) (-\infty, \infty) (,) 的随机变量
X X X,关于该总体的分布我们可以知道些什么呢?
有一点是可以确定的, 测量结果 X X X 可以看作物理量 μ \mu μ 与测量误差
ε \varepsilon ε 的叠加, 即
X = μ + ε , X=\mu+\varepsilon, X=μ+ε,
这里 μ \mu μ 是一个确定的但未知的量, 我们称之为参数, ε \varepsilon ε
是随机变量. 于是关于总体分布的假定主要是关于 ε \varepsilon ε
的分布的假定.如下几种假定分别在一些场合是合理的.
(1) 由中心极限定理, 最常见的是假定随机误差
ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N\left(0, \sigma^{2}\right) εN(0,σ2),
于是测量值的总体就是一个正态分布, 即
X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) XN(μ,σ2), 这里总体中有两个未知参数
μ , σ \mu, \sigma μ,σ. 如何推断 μ \mu μ σ \s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值