概率论的基本概念
概率论与数理统计是研究和揭示随机现象统计规律性的一门数学学科。
- 统计规律性:在大量重复试验或观察中所呈现出的固有规律性。
- 随机现象:在个别试验中其结果呈现出不确定性,在大量重复试验中其结果又具有统计规律性的现象。
随机试验
满足一下三个特点的试验称为随机试验:
- 可以在相同条件下重复的进行;
- 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;
- 进行一次试验之前不能确定哪一个结果会出现。
样本空间、随机事件
-
样本空间
- 样本空间:随机试验的所有可能结果组成的集合。
- 样本点:样本空间的元素,即随机事件每个结果。
-
随机事件
在实际中,当进行随机试验时,人们常常关心满足某种条件的那些样本点所组成的集合。- 随机事件(简称事件):随机试验样本空间的子集。
- 事件发生:子集中的样本点出现。
- 基本事件:由一个样本点组成的单点集。
- 必然事件:样本空间包含所有的样本点,它是样本空间自身的子集,在每次试验中它总是发生的事件。
- 不可能事件:空间不包含任何样本点,它也作为样本空间的子集,它在每次试验中都不发生的事件。
-
事件之间的关系与事件的运算
频数与概率
对于一个事件(除必然事件和不可能事件外),它在一次试验中可能发生,也可能不发生。我们常常希望知道某些事件在一次试验中发生的可能性究竟有多大。频率描述了事件发生的频繁程度,概率表征事件在一次试验中发生的可能性大小。
- 频率
- 概率
等可能概型(古典概型)
条件概率
-
条件概率
-
乘法定理
-
全概率公式和贝叶斯公式
独立性
随机变量及其分布
一些随机试验,它们的结果可以用数来表示。此时样本空间S的元素是一个数。当样本空间S的元素不是一个数时,对于S就难以描述和研究,随机变量引入一个法则,将随机试验的每一个结果,即将S的每个元素e与实数x对应起来。
离散型随机变量及其分布律
有些随机变量,它全部可能取到的值是有限个或可列无限多个,这种随机变量称为离散型随机变量。要掌握离散型随机变量X的统计规律,必须且只需要知道X的所有可能取值以及每一个可能值的概率。
三种重要的离散型随机变量:
-
(0-1)分布
-
伯努利试验、二项分布
-
泊松分布
随机变量的分布函数
连续型随机变量及其概率密度
三种重要的连续型随机变量:
-
均匀分布
-
指数分布
-
正态分布
随机变量的函数的分布
在实际中,我们厂对某些随机变量的函数更感兴趣。例如在一些试验中,所关心的随机变量往往不能由直接测量得到,而它却是某个能直接测量的随机变量的函数。
多维随机变量及其分布
二维随机变量
一般,设E是一个随机试验,它的样本空间是S={e},设X=X(e)和Y=Y(e)是定义在S上的随机变量,由它们构成一个向量(X,Y)叫作二维随机向量或二维随机变量。二维随机变量(X,Y)的性质不仅与X及Y有关,而且还依赖于这两个随机变量的相互关系。需要将(X,Y)作为一个整体来进行研究。
边缘分布
单有关于X和Y的边缘分布,一般来说是不能确定随机变量X和Y的联合分布的。
条件分布
相互独立的随机变量
两个随机变量的函数的分布
-
Z= X+Y的分布
-
Z = Y/X的分布、Z=XY的分布
-
M=max{X,Y}及N=min{X,Y}的分布
随机变量的数值特征
虽然随机变量的分布函数、概率密度函数和分布律都能完整的描述随机变量,但是在某些实际或理论问题中,人们感兴趣于某些能描述随机变量某一种特征的常数。由随机变量的分布所确定的,能刻画随机变量某一方面的特征的常数统称为数值特征,它在理论和实际应用中都很重要(数学期望、方差、相关系数和矩)。
随机变量的数字特征是由随机变量的分布确定的,能描述随机变量某一个方面的特征的常数。最重要的数字特征是数学期望和方差。
数学期望
方差
协方差及相关系数
矩、协方差矩阵
一般,n为随机变量的分布式不知道的,或者太复杂,以致在数学上不易处理,因此在实际应用中将概率密度改写成协方差矩阵的形式。
大数定律及中心极限定理
极限定理是概率论的基本理论,在理论研究和应用中起着重要的作用,其中最重要的是称为“大数定律”与“中心极限定理”的一些定理。大数定律是叙述随机变量序列的前一些项的算术平均值在某种条件下收敛到这些项的均值的算术平均值;中心极限定理则是确定在什么条件下,大量随机变量之和的分布逼近于正态分布。
大数定律
大量试验证实,随机事件的频率当重复试验的次数n增大时总呈现出稳定性,稳定在某一个常数的附近。频率的稳定性是概率定义的客观基础。
中心极限定理
在客观实际中有许多随机变量,他们由大量的相互独立的随机因素的综合影响所形成的。而其中每一个别因素在总的影响中所起的作用都是微小的。这种随机变量往往近似地服从正态分布。这种现象就是中心极限定理的客观背景。
样本及抽样分布
数理统计具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。
数理统计的内容包括:如何收集、整理资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断(统计推断问题)。
- 概率论中,所研究的随机变量,它的分布都是假设已知的,在这一前提下去研究它的性质、特点和规律性,例如求出它的数字特征,讨论随机变量函数的分布,介绍常用的各种分布。
- 数理统计中,研究的随机变量,它的分布是未知的,或者是不完全知道的,人们通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断。
在数理统计中,研究有关对象的某一项数理指标,考虑与这一数量指标相联系的随机试验,对这一数量指标进行试验或观察。将试验的全部可能的观察值称为总体,这些值不一定都不形同,数目上也不一定是有限的,每一个可能观察值称为个体。总体中所包含的个体的个数称为总体的容量。容量为有限的称为有限总体,容量为无限的称为无限总体。
总体中的每一个个体是随机试验的一个观察值,因此它是某一随机变量X的值,这样,一个总体对应于一个随机变量X。对总体的研究就是对一个随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和数字特征。不区分总体与相应的随机变量,统称定位总体X。
在实际中,总体的分布一般是未知的,或只知道它具有某种形式而其中包含着未知参数。在数理统计中,人们都是通过从总体中抽取一部分个体,根据获得的数据来对总体分布作出推断的。被抽出的部分个体叫作总体的一个样本。
所谓从总体抽取一个个体,就是对总体X进行一次观察并记录其结果。在相同的条件下对总体X进行n次重复的、独立的观察。将n次结果按试验的次序记为
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1,X2,...,Xn。由于
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1,X2,...,Xn是对随机变量X观察的结果。且各次观察是在相同的条件下独立进行的,所以有理由认为
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1,X2,...,Xn是相互独立的,且都是与X具有相同分布的随机变量。这样得到
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1,X2,...,Xn称为来自总体X的一个简单随机样本,n称为这个样本的容量。
当n次观察一经完成,就得到一组实数
x
1
,
x
2
,
.
.
.
,
x
n
x_1, x_2, ..., x_n
x1,x2,...,xn,它们依次是随机变量
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1,X2,...,Xn的观察值,称为样本值。
对于有限总体,采用放回抽样就能得到简单随机样本,但放回抽样使用起来不方便,当个体的总数N比要得到的样本的容量n大得多时,在实际中可将不放回抽样近似的当作放回抽样来处理。至于无限总体,因抽取一个个体不影响它的分布,所以总是用不放回抽样。
直方图和箱线图
为了研究总体分布的性质,人们通过试验得到许多观察值,一般来说这些数据是杂乱无章的。为了利用他们进行统计分析,将这些数据加以整理,还借助于表格或图形对它们加以描述。
- 频率直方图
对杂乱无章的数据进行整理,找数据的最大值和最小值,将数据的最小值到最大的区间分为n个小区间,小区间的长度称为组距,小区间的端点称为组限。出落在每个小区间内得数据的概率除以组距,作为每个小矩形的高。这样的图形叫作频率直方图,小矩形的面积就等于数据落在该小区间的频率。当n很大时,频率接近于概率,因而一般来说,每个小区间上的小矩形面积接近于概率密度曲线之下该小区间之上的曲边梯形的面积。所以,一般来说,直方图的外轮廓曲线接近于总体的Giallo密度曲线。 - 箱线图
数据集中,疑似异常值的产生源于:
- 数据的测量、记录或熟人计算机时的错误;
- 数据来自不同的总体;
- 数据是正确的,但它只体现小概率事件。
当检测出疑似异常值时,人们需对疑似异常值出现的原因加以分析。如果是由于策略或记录的错误,或某些其他明显的原因造成的,将这些疑似异常值从数据集中丢弃就可以了。当出现的原因无法解释时作出丢弃或保留这些值的决策是困难的。因此对数据集作分析时尽量选用稳健的方法,使得疑似异常值对结论的影响较小。
抽样分布
样本是进行统计推断的依据,在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。
统计量的分布称为抽样分布。在使用统计量进行统计推断时常需要知道它的分布。当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。来自正态总体的几个常用统计量的分布。
-
χ
2
\chi^2
χ2分布
- t分布
- F分布
- 正态总体的样本均值与样本方差的分布
参数估计
统计推断的基本问题可以分为两大类,一类是估计问题,另一类是假设检验问题。
参数估计问题分为点估计和区间估计。点估计是适当的选择一个统计量作为未知参数的估计(称为估计量),若已取得一个样本,将样本值代入估计量,得到估计量的值,以估计量的值作为未知参数的近似值(称为估计值)。
点估计
设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。
构造估计量的方法:矩估计法和最大似然估计法。
-
矩估计法
以样本矩作为总体矩的估计量,而已样本矩的连续函数作为相应的总体矩的连续函数的估计量,从而得到总体未知参数的估计。
-
最大似然估计法
最大似然估计法的基本想法是,若已知观察到样本 ( X 1 , X 2 , . . . , X n ) (X_1, X_2,...,X_n) (X1,X2,...,Xn)的样本值 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),而取到这一样本值的概率为 p p p(在离散型的情况下)或 ( X 1 , X 2 , . . . , X n ) (X_1, X_2,...,X_n) (X1,X2,...,Xn)落在这一样本值 ( X 1 , X 2 , . . . , X n ) (X_1, X_2,...,X_n) (X1,X2,...,Xn)的领域内的概率为 p p p(在连续型的情况下),而 p p p与未知参数有关,就取 θ \theta θ的估计值使概率 p p p取到最大。
基于截尾样本的最大似然估计
估计量的评选标准
对于同一参数,用不同的估计方法求出的估计量可能不相同,原则上任何统计量都可以作为未知参数的估计量。哪一种估计量好,需要用估计量的评选标准。
-
无偏性
-
有效性
-
相合性
区间估计
点估计不能反映估计的精度,引入区间估计。
正态总体均值和方差的区间估计
-
单个总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的情况
-
两个总体 N ( μ 1 , σ 1 2 ) , N ( μ 2 , σ 2 2 ) N(\mu_1, \sigma^2_1),N(\mu_2, \sigma^2_2) N(μ1,σ12),N(μ2,σ22)的情况
在实际中常遇到下面的问题:已知产品的某一质量指标服从正态分布,但由于原料、设备条件、操作人员不同,或工艺过程的改变等因素,引起总体均值、总体方差有所改变。如果需要知道这些变化有多大,就需要考虑两个正态总体均值差或方差比的估计问题。
设已给定置信水平为 1 − α 1-\alpha 1−α,并设 X 1 , X 2 , . . . , X n 1 X_1, X_2,...,X_{n_1} X1,X2,...,Xn1是来自第一个总体的样本; Y 1 , Y 2 , . . . , Y n 2 Y_1, Y_2,...,Y_{n_2} Y1,Y2,...,Yn2是来自第二个总体的样本,这两个样本相互独立。且设 X ˉ \bar{X} Xˉ, Y ˉ \bar{Y} Yˉ分别为第一、第二个总体的样本均值, S 1 2 S_1^2 S12, S 2 2 S_2^2 S22分别是第一、第二个总体的样本方差。
(0-1)分布参数的区间估计
单侧置信区间
假设检验
假设检验
统计推断就是由样本来推断总体,它包括两个基本问题:统计估计和假设检验。有关总体分布的未知参数或未知分布形式的种种论断叫统计假设。人们要根据样本所提供的信息对所考虑的假设做出接受或拒绝的决策。假设检验就是做出这一决策的过程。
一般,人们总是对原假
H
0
H_0
H0做出接受或拒绝的决策。由于作出判断原假设
H
0
H_0
H0是否为真的依据是一个样本,由于样本的随机性,当
H
0
H_0
H0为真时,检验统计量的观察值也会落入拒绝域,致使我们做出拒绝
H
0
H_0
H0的错误决策;而当
H
0
H_0
H0为不真时,检测统计量的观察值也会未落入拒绝域,致使我们做出接受
H
0
H_0
H0的错误决策。
接受一个假设并不意味这确信它是真的,它只意味着决定采取某种行动;拒绝一个假设也不意味着它是假的,这也仅仅是作出采取另一种不同的行动。不论哪种情况,都存在作出错误选择的可能性。
正态总体均值的假设检验
- 单个总体
N
(
μ
,
σ
2
)
N(\mu, \sigma^2)
N(μ,σ2)均值
μ
\mu
μ的检验
- 两个正态总体均值差的检验(t检验)
- 基于成对数据的检验(t检验)
有时为了比较两种产品、两种仪器、两种方法等的差异,我们常在相同的条件下做对比试验,得到一批成对的观察值。然后分析观察数据作出推断。这种方法常称为逐对比较法。
正态总体方差的假设检验
- 单个总体的情况
- 两个总体的情况
置信区间与假设检验之间的关系
样本容量的选取
分布拟合检验
上面介绍的各种检验法都是在总体分布形式为已知的前提下进行的。但在实际问题中,有时不能知道总体服从什么类型的分布,这时就需要根据样本来检验关于分布的假设。
- 单个分布的 χ 2 \chi^2 χ2拟合检验法
- 分布族的 χ 2 \chi^2 χ2拟合检验
- 偏度、峰度检验
秩和检验
假设检验问题的 p p p值检验法
方差分析及回归分析
单因素试验的方差分析
- 单因素试验
在试验中,将要考察的指标称为试验指标。影响试验指标的条件称为因素。因素分为两类,一类是人们可以控制的(可控因素);一类是人么不能控制的。因素所处的状态,称为因素的水平。如果在一项试验的过程中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。
- 平方和的分解
-
S
E
,
S
A
S_E,S_A
SE,SA的统计特性
- 假设检验问题的拒绝域
- 未知参数的估计
双因素试验的方差分析
-
双因素等重复试验的方差分析
-
双因素无重复试验的方差分析
一元线性回归
在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系时指变量之间的关系可以用函数关系来表达的。另一种非确定性的关系即所谓相关关系。如果变量是随机变量,那么变量关系是非确定性的。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个变量取得的值去估计另一个变量所取的值。
- 一元线性回归
设 Y Y Y关于 x x x的回归函数为 μ ( x ) \mu(x) μ(x)。利用样本来估计 μ ( x ) \mu(x) μ(x)的问题称为求 Y Y Y关于 x x x的回归问题。特别,若 μ ( x ) \mu(x) μ(x)的为线性函数: μ ( x ) = a + b x \mu(x)=a+bx μ(x)=a+bx,此时估计 μ ( x ) \mu(x) μ(x)的问题称为求一元线性回归问题。
-
a
,
b
a,b
a,b的估计
-
σ
2
\sigma^2
σ2的估计
- 线性假设的显著性检验
- 系数
b
b
b的置信区间
- 回归函数 μ ( x ) = a + b x \mu(x) = a + bx μ(x)=a+bx函数值的点估计和置信区间
-
Y
Y
Y的观察值的点预测和预测区间
- 可化为一元线性回归的例子
复杂回归问题在某些情况下可以通过适当的变量变换转换化成一元线性回归来处理。
- 多元线性回归
小结
统计模型:方差分析模型和回归分析模型。
- 方差分析模型
在实际中试验的指标往往要受到一种或多种因素的影响。方差分析就是通过对试验数据进行人像,检验方差相同的多个(多于两个)正态总体的均值是否相等,用以判断各因素对试验指标的影响是否显著。方差分析按影响试验指标的因素的个数分为单因素方差分析、双因素方差分析和多因素方差分析。
- 回归分析
bootstrap方法
非参数bootstrap方法
设总体的分布 F F F未知,但已经有一个容量为 n n n的来自分布 F F F的数据样本,自这一样本按放回抽样的方法抽取一个容量为 n n n的样本,这种样本称为bootstrap样本或称为自助样本。相继的、独立的从自原始样本中取很多个bootstrap样本,利用这些样本对总体 F F F进行推断。这种方法称为非参数bootstrap方法,又称自助法。这一方法可以用于当人们对总体知之甚少的情况,它是近代统计中的一种用于数据处理的重要实用方法。
- 估计量的标准误差的bootstrap估计
- 估计量的均方误差即偏差的bootstrap估计
- bootstrap置信区间
- 用bootstrap-t法求均值
μ
\mu
μ的bootstrap的置信区间
用非参数bootstrap法来求参数的近似置信区间的优点是,不需要对总体分布的类型作任何的假设,而且可以适用于小样本,且能用于各种统计量(不限于样本均值)。
bootstrap方法,没有假设所研究的总体的分布函数 F F F的形式,bootstrap样本是来自已知的数据(原始样本),所以称之为非参数bootstrap方法。
参数bootstrap方法
小结
随机过程及其统计描述
从随时间演变的随机现象引入随机过程的概念和记号。介绍随机过程的统计描述方法。从实际问题抽象出两个著名的随机过程,并介绍它们的统计特性。
随机过程的概念
随机过程的研究对象是随时间演变的随机现象。这种现象已不能用随机变量或多维随机变量来合理的表达,而需要用一族(无限多个)随机变量来描述。
随机过程的统计描述
随机过程在任一时刻的状态是随机变量,可以利用随机变量(一维或多维)的统计描述方法来描述随机过程的统计特性。
- 随机过程的分布函数族
- 随机过程的数字特征
- 二维随机过程的分布函数和数字特征
泊松过程及维纳过程
-
泊松过程
- 随时间推移迟早会重复出现的事件;
- 事件的发生相当于质点出现;
- 研究对象将是随时间推移,陆续地出现在时间轴上的许多质点所构成的随机的质点流。
在较多的实际问题中,通常对质点的观察,不是对时间间隔中出现的质点计数,而是对记录到某一预定数量的质点所需要的时间进行计时。即等待时间和点间间隔,以及他们的概率分布。
-
维纳过程
马尔可夫链
马尔可夫过程的主要特征是具有无后效性(马氏性),通俗的说,就是在已知过程“现在”所处状态的条件下,其“将来”状态的概率分布不依赖于“过去”所处的状态。无后效性的严格定义是由条件分布函数给出的。
马尔可夫过程及其概率分布
在物理学中,很多确定现象遵从如下演变规则:由时刻
t
0
t_0
t0系统或过程所处的状态,可以决定系统或过程在时刻
t
>
t
0
t>t_0
t>t0所处的状态,而无需借助于
t
0
t_0
t0以前系统或过程所处状态的历史资料。如微分方程初值问题所描绘的物理过程就属于这类确定性现象。把上述原则延伸到随机现象,即当一物理系统或过程遵循的是某种统计规律时,可仿照上面的原则,引入以下的马尔可夫性或无后效性:过程(或系统)在时刻
t
0
t_0
t0所处的状态为已知的条件下,过程在时刻
t
>
t
0
t>t_0
t>t0所处的状态的条件分布与过程在
t
0
t_0
t0之前所处的状态无关。通俗的说,就是在已经知道过程“现在”的条件下,其“将来”不依赖于“过去”。
泊松过程是时间连续、状态离散的马氏过程;维纳过程是时间、状态都连续的马氏过程。
多步转移概率的确定
遍历性
小结
马尔可夫过程的主要特性是它具有无后效性(马氏性),通俗的说,就是在已知过程“现在”所处状态的条件下,其“将来”状态的概率分布不依赖于“过去”所处的状态。
泊松过程是时间连续、状态离散的马氏过程;维纳过程是时间、状态都连续的马氏过程。
平稳随机过程
平稳随机过程的概念
各态历经性
根据实验记录确定平稳过程的均值和自相关函数的理论依据和方法。
相关函数的性质
用数字特征来描述随机过程,比用分布函数(或概率密度)来的简单。对于具有各态历经性的平稳过程,可以根据各态历经定理,对随机过程的一个样本函数使用数学分析的计算手续去求它的均值和相关函数。在这种场合下,利用均值和相关函数去研究随机过程更是方便。特别是对于正态平稳过程,它额均值和相关函数完全刻画了该过程的统计特性。
平稳随机过程的功率谱密度
用傅里叶变换确立平稳过程的频率结构—功率谱密度。
- 平稳过程的功率谱密度
- 谱密度的性质
- 互谱密度及其性质