概率论与数理统计——总结
〇、绪论
1 研究对象
概率论研究的对象是随机现象。
① 决定性现象:在一定条件下,必然发生某一结果的现象。(结果是确定不变的)
② 随机现象:在一定条件下,出现试验或观察前不能确切预知的结果。(随机性、偶然性、不可预测)
大量观测随机现象,可能会发现某些规律性
2 起源、发展
概率论起源于赌博。
对于概率论的发展,15-16世纪,意大利学者就开始讨论赌博的赌金分配等概率问题;18世纪,伯努利提出了著名的伯努利大数定律,棣莫弗提出了概率乘法法则,正态分布等,之后,拉普拉斯,高斯和泊松对概率论进一步做出了奠基性的工作;19世纪后期,切比雪夫建立了关于独立随机变量序列的大数定律;20世纪,测度论和积分论建立,科尔莫戈罗夫给出了公理化概率论的一系列概念,提出了六条公理。
3 应用
其应用几乎遍及科学技术领域、工农业生产和国民经济的各个部门。
一、概率论的基本概念
1 试验与事件
随机试验(E)
对随机现象进行一次观察或试验,统称为试验。
特点
① 相同条件可重复;
② 结果可能不唯一,且试验前明确知道所有可能结果;
③ 每次试验必发生且仅发生全部可能结果中的一个。
样本空间(S)
试验E所有可能基本结果组成的集合。记为
S
=
{
e
∣
e
为
E
的
可
能
结
果
}
S=\{e|e为E的可能结果\}
S={e∣e为E的可能结果}
样本点
样本空间的元素e,也称为样本点。
随机事件
随机试验的某些样本点组成的集合称为随机事件,简称为事件。任意随机事件都是样本空间的某一个子集。
事件又分为基本事件(一个样本点组成的单点集)和复合事件(两个以上样本点组成的点集)
特殊事件
必然事件:试验中必定发生的事件,用S表示。
不可能事件:试验中不可能发生的事件,用
ϕ
\phi
ϕ表示。
事件的关系与运算
1) 包含关系
2) 相等关系
3) 并事件
4) 交事件
5) 差事件
6) 互斥事件(不相容)
7) 对立事件
运算性质
交换律
结合律
分配律
德摩根律
*差化积:
A
−
B
=
A
B
ˉ
=
A
−
A
B
A-B=A\bar{B}=A-AB
A−B=ABˉ=A−AB
概率
概率可以用来度量事件发生的可能性。用P(A)表示事件发生的概率。那么,P(A)满足
0
≤
P
(
A
)
≤
1
0\leq P(A) \leq 1
0≤P(A)≤1
2 古典概型
古典概型满足下面两个条件
① 基本事件为有限个
② 每个基本事件都是等可能的
排列组合是计算古典概型的重要工具。
计算公式
P
(
A
)
=
k
n
P(A)=\frac{k}{n}
P(A)=nk
3 几何概型
设样本空间为有限区域Ω,若样本点落入Ω内任何区域G中的概率与区域G的量度成正比,则样本点落入G内的概率为
P
(
A
)
=
G
的
量
度
Ω
的
量
度
P(A)=\frac{G的量度}{Ω的量度}
P(A)=Ω的量度G的量度
4 频率与频数
在相同条件下,进行n次试验,在这n次试验中,事件A发生的次数 n A n_{A} nA称为事件A发生的频数。比值 n A n \frac{n_{A}}{n} nnA称为事件A发生的频率,记为 f n ( A ) f_{n}(A) fn(A)。
频率的性质
1) 非负性
2) 归一性
3) 可列可加性
频率稳定性
在充分多次试验中,事件的频率总在一个定值附近摆动,而且,试验次数越多,一般来说摆动越小。这个性质叫做频率的稳定性。
概率的频率定义
在一组不变的条件下,重复作n次试验,记m是n次试验中事件A发生的次数。当试验次数n很大时,如果频率
m
n
\frac{m}{n}
nm稳定地在某数值p附近摆动,而且一般地说,随着试验次数的增加,这种摆动的幅度越来越小,称数值p为事件A在这一组不变的条件下发生的概率,记作P(A)=p。
缺点: 不可能对每一个事件都做大量试验,以求得频率;无法给出确切的概率值。
优点: 提供了估计事件发生可能性大小的方法;提供了一种检验理论正确与否的准则。
概率的公理化定义
设试验E的样本空间为Ω,事件域为
ξ
\xi
ξ,P为定义在事件域
ξ
\xi
ξ上的一维实函数。
P
:
ξ
→
R
1
P: \xi →R^{1}
P:ξ→R1
A
→
P
(
A
)
A→P(A)
A→P(A)
该一维实函数的性质
① 非负性
② 归一性
③ 可列可加性
P(A)为事件A的概率,(Ω, ξ \xi ξ,P)为概率空间。
概率的性质
1) P(
ϕ
\phi
ϕ) = 0
2) 有限可加性
3) 逆事件的概率:
P
(
A
)
=
1
−
P
(
A
ˉ
)
P(A)=1-P(\bar{A})
P(A)=1−P(Aˉ)
4) 若A
⊂
\subset
⊂B,则有
P
(
B
−
A
)
=
P
(
B
)
−
P
(
A
)
P(B-A)=P(B)-P(A)
P(B−A)=P(B)−P(A)
P
(
A
)
≤
P
(
B
)
P(A)≤P(B)
P(A)≤P(B) 特别地,对任何事件A,都有
P
(
A
)
≤
1
P(A)≤1
P(A)≤1 5) 加法公式
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
−
P
(
A
B
)
P(A\cup B)=P(A)+P(B)-P(AB)
P(A∪B)=P(A)+P(B)−P(AB) 推广到三个事件
P
(
A
∪
B
∪
C
)
=
P
(
A
)
+
P
(
B
)
+
P
(
C
)
−
P
(
A
B
)
−
P
(
A
C
)
−
P
(
B
C
)
+
P
(
A
B
C
)
P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)
P(A∪B∪C)=P(A)+P(B)+P(C)−P(AB)−P(AC)−P(BC)+P(ABC) 推广到n个事件。‘
5 条件概率和乘法公式
条件概率的定义及性质
定义
设A,B是两个事件,且P(B)>0,则称
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
P(A|B)=\frac{P(AB)}{P(B)}
P(A∣B)=P(B)P(AB) 为在事件B发生的条件下,事件A发生的条件概率。
性质
1) 非负性
2) 归一性
3) 可列可加性(在B发生的条件下n个事件和事件的概率,等于在B发生的条件下n个事件分别发生的概率的和)
P
(
B
1
∪
B
2
∣
A
)
=
P
(
B
1
∣
A
)
+
P
(
B
2
∣
A
)
−
P
(
B
1
B
2
∣
A
)
P(B_{1} \cup B_{2}|A)=P(B_{1}|A)+P(B_{2}|A)-P(B_{1}B_{2}|A)
P(B1∪B2∣A)=P(B1∣A)+P(B2∣A)−P(B1B2∣A)
P
(
B
ˉ
∣
A
)
=
1
−
P
(
B
∣
A
)
P(\bar{B}|A)=1-P(B|A)
P(Bˉ∣A)=1−P(B∣A)
计算
1) 用定义式计算。
2) 在缩减的样本空间上计算
P(A|B)与P(A)的区别
P(A)与P(A|B)的区别在于两者发生的条件不同,它们是两个不同的概念,在数值上一般也不同,一般P(A|B)≠P(A)。
P(A|B)与P(AB)的区别
1) 发生条件不同,即B在前者作为条件,在后者作为结果。
2) 数值不同
乘法定理
乘法公式
设有两个事件A,B,如果P(B)>0,由条件概率公式得
P
(
A
B
)
=
P
(
B
)
P
(
A
∣
B
)
P(AB)=P(B)P(A|B)
P(AB)=P(B)P(A∣B)
P
(
A
B
)
=
P
(
A
)
P
(
B
∣
A
)
P(AB)=P(A)P(B|A)
P(AB)=P(A)P(B∣A) 均称为概率的乘法公式或乘法定理。
推广
P
(
A
1
A
2
.
.
.
A
n
)
=
P
(
A
1
)
P
(
A
2
∣
A
1
)
.
.
.
P
(
A
n
∣
A
1
A
2
.
.
.
A
n
−
1
)
P(A_{1}A_{2}...A_{n})=P(A_{1})P(A_{2}|A_{1})...P(A_{n}|A_{1}A_{2}...A_{n-1})
P(A1A2...An)=P(A1)P(A2∣A1)...P(An∣A1A2...An−1)
(
P
(
A
1
A
2
.
.
.
A
n
−
1
)
>
0
)
(P(A_{1}A_{2}...A_{n-1})>0)
(P(A1A2...An−1)>0)
全概率公式 贝叶斯公式
全概率公式:已知原因求结果。
贝叶斯公式:已知结果求原因。
完备事件组
将一个复杂事件分解为若干个简单互斥事件的并。
若事件组
A
1
,
A
2
.
.
.
A
n
A_{1},A_{2}...A_{n}
A1,A2...An满足:
①
A
1
,
A
2
.
.
.
A
n
A_{1},A_{2}...A_{n}
A1,A2...An互不相容且
P
(
A
i
)
>
0
,
i
=
1
,
2...
n
P(A_{i})>0 ,i=1,2...n
P(Ai)>0,i=1,2...n
②
⋃
i
=
1
n
A
i
=
S
\bigcup_{i=1}^n A_{i}=S
⋃i=1nAi=S
则
A
1
,
A
2
.
.
.
A
n
A_{1},A_{2}...A_{n}
A1,A2...An为一组完备事件组。
全概率公式
对于事件B,有
P
(
B
)
=
∑
i
=
1
n
P
(
B
∣
A
i
)
P
(
A
i
)
P(B)= \sum_{i=1}^n P(B|A_{i})P(A_{i})
P(B)=i=1∑nP(B∣Ai)P(Ai) 其中
A
1
,
A
2
.
.
.
A
n
A_{1},A_{2}...A_{n}
A1,A2...An为一组完备事件组。
全概率公式应用条件
1) 求复杂事件B的概率
2) B发生可能有多种原因或多种条件或多种情况下发生。
3) 由题中条件易算出
P
(
A
k
)
,
P
(
B
∣
A
k
)
P(A_{k}),P(B|A_{k})
P(Ak),P(B∣Ak)。
全概率公式解题步骤
Step1:判断问题是否能够应用全概率公式。
Step2:由题目找出B发生的各种可能的原因,构造完备事件组并检查。
Step3:应用全概率公式求解。
贝叶斯公式
对于事件B,有
P
(
A
j
∣
B
)
=
P
(
A
j
B
)
P
(
B
)
=
P
(
A
j
)
P
(
B
∣
A
j
)
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
,
j
=
1
,
2...
n
P(A_{j}|B)=\frac{P(A_{j}B)}{P(B)}=\frac{P(A_{j})P(B|A_{j})}{\sum_{i=1}^n P(A_{i})P(B|A_{i})},j=1,2...n
P(Aj∣B)=P(B)P(AjB)=∑i=1nP(Ai)P(B∣Ai)P(Aj)P(B∣Aj),j=1,2...n 其中
A
1
,
A
2
.
.
.
A
n
A_{1},A_{2}...A_{n}
A1,A2...An为一组完备事件组。
贝叶斯公式应用条件
1) 复杂事件B的发生可能有多种原因。
2) 由题中条件易算出
P
(
A
k
)
,
P
(
B
∣
A
k
)
P(A_{k}),P(B|A_{k})
P(Ak),P(B∣Ak)。
3) 问题是已知B发生的条件下,求某个原因发生的概率。
6 事件独立性
定义
对任意的事件A, B,若
P
(
A
B
)
=
P
(
A
)
P
(
B
)
P(AB)=P(A)P(B)
P(AB)=P(A)P(B),则称事件A,B是相互独立的。
性质
必然事件与任何事件独立。
不可能事件与任何事件独立。
若A,B相互独立,则下列各对事件也相互独立
A
与
B
ˉ
、
A
ˉ
与
B
、
A
ˉ
与
B
ˉ
A与\bar{B}、\bar{A}与B、\bar{A}与\bar{B}
A与Bˉ、Aˉ与B、Aˉ与Bˉ
多个事件独立
注意相互独立和两两独立的差别。
性质
① 若n个事件相互独立,则这n个事件中的k个事件也相互独立。
② 若n个事件相互独立,将这n个事件任意分成k组,同一个事件不能同时属于两个不同的组,则对每组的事件进行求和、积、差、对立等运算所得到的k个事件也相互独立。
③ 若
A
1
.
.
.
A
n
A_{1}...A_{n}
A1...An相互独立,则
P
(
⋃
k
=
1
n
A
k
)
=
1
−
∏
k
=
1
n
(
1
−
P
(
A
k
)
)
P( \bigcup_{k=1}^n A_{k})=1- \prod_{k=1}^n (1-P(A_{k}))
P(k=1⋃nAk)=1−k=1∏n(1−P(Ak)) 也就是说,n个独立事件至少有一个发生的概率,等于1减去各自对立事件概率的乘积。
二、随机变量及其分布
1 随机变量
定义
设
(
S
,
ξ
,
P
)
(S,\xi,P)
(S,ξ,P)是一概率空间,若X为样本空间S上的函数
X
:
S
→
R
1
X:S→R^{1}
X:S→R1
ω
→
X
(
ω
)
\omega →X(\omega)
ω→X(ω) 满足
∀
x
∈
R
1
\forall x \in R^{1}
∀x∈R1 有
{
ω
:
X
(
ω
)
≤
x
}
∈
ξ
\{ \omega :X(\omega)≤x\}\in \xi
{ω:X(ω)≤x}∈ξ 则称
X
(
ω
)
X(\omega)
X(ω)为
(
S
,
ξ
,
P
)
(S,\xi,P)
(S,ξ,P)上的一个随机变量。
表示随机变量一般用大写字母表示,而随机变量的值一般用小写字母表示。
随机变量与一般实函数的差别
① X的取值具有随机性。
② 定义域不同。
分类
随机变量通常分为离散型随机变量和连续型随机变量。
2 离散型随机变量及分布律
定义
随机变量X的所有可能取值为有限个或可列个,称X为离散型随机变量。
分布的定义
若随机变量的所有可能取值为
x
1
,
x
2
.
.
.
x
n
.
.
.
x_{1},x_{2}...x_{n}...
x1,x2...xn...,且X取这些值的概率分别为
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2...
P(X=x_{i})=p_{i},i=1,2...
P(X=xi)=pi,i=1,2... 称上式为离散型随机变量X的概率分布,
p
k
{p_{k}}
pk为概率分布列,简称分布列。
分布列的三种表示法
① 公式法
② 表格法
③ 图示法
性质
1)
p
i
≥
0
,
i
=
1
,
2...
p_{i}≥0,i=1,2...
pi≥0,i=1,2...
2)
p
1
+
p
2
+
.
.
.
=
1
p_{1}+p_{2}+...=1
p1+p2+...=1(所有的概率相加等于1)
几种常见的离散型随机变量
单点分布
随机变量X只取一个常数C,即P(X=C)=1,则称X服从单点分布。
0-1分布
若随机变量只取两个数值1或0,其分布为
P
(
X
=
k
)
=
p
k
q
1
−
k
,
k
=
0
,
1
(
0
<
p
<
1
,
q
=
1
−
p
)
P(X=k)=p^{k}q^{1-k},k=0,1(0<p<1,q=1-p)
P(X=k)=pkq1−k,k=0,1(0<p<1,q=1−p) 则称X服从参数为p的两点分布或参数为p的0-1分布。
应用场景
凡是随机试验只有两个可能的结果,常用0-1分布描述。
二项分布
若X的分布为
P
(
X
=
k
)
=
C
n
k
p
k
q
n
−
k
,
k
=
0
,
1
,
2...
n
P(X=k)=C_{n}^{k}p^{k}q^{n-k},k=0,1,2...n
P(X=k)=Cnkpkqn−k,k=0,1,2...n 称X服从参数为n,p的二项分布,记为
X
∼
B
(
n
,
p
)
X \sim B(n,p)
X∼B(n,p)
说明
① 当n=1时,X~B(1,p),此时X服从两点分布,这说明,两点分布是二项分布的一个特例。
② 称其为二项分布的原因是
C
n
k
p
k
q
n
−
k
C_{n}^{k}p^{k}q^{n-k}
Cnkpkqn−k为二项展开式
(
p
+
q
)
n
=
∑
k
=
0
n
C
n
k
p
k
q
n
−
k
(p+q)^n=\sum_{k=0}^nC_{n}^{k}p^{k}q^{n-k}
(p+q)n=∑k=0nCnkpkqn−k第k+1项。
伯努利概型
若随机试验E只有两个可能的结果
A
A
A和
A
ˉ
\bar{A}
Aˉ,且P(A)=p(0<p<1),则称E为伯努利概型。
n重伯努利试验
将伯努利试验E,在相同条件下,独立重复进行n次,作为一个试验,则这个试验为n重伯努利概型。记为
E
n
E^n
En。
泊松定理
设有一列二项分布
X
n
∼
B
(
n
,
p
n
)
,
n
=
1
,
2
,
.
.
.
,
X_n \sim B(n,p_n),n=1,2,...,
Xn∼B(n,pn),n=1,2,..., 如果
lim
n
→
∞
n
p
n
=
λ
\lim_{n \rightarrow \infty }np_n=\lambda
n→∞limnpn=λ λ是与n无关的正常数,则对任意固定的非负整数k,均有
lim
n
→
∞
P
{
X
n
=
k
}
=
lim
n
→
∞
C
n
k
p
n
k
(
1
−
p
n
)
n
−
k
=
λ
k
k
!
e
−
λ
\lim_{n \rightarrow \infty }P\{X_{n}=k\}=\lim_{n \rightarrow \infty }C_{n}^{k}p_{n}^{k}(1-p_{n})^{n-k}=\frac{\lambda ^k}{k!}e^{-\lambda}
n→∞limP{Xn=k}=n→∞limCnkpnk(1−pn)n−k=k!λke−λ
泊松定理说明
① 当n比较大,p比较小,而np=λ适中,则可以用近似公式,二项分布近似为泊松分布。
② 当n≥100,np≤10时,精度较好。
③ 在泊松定理中
λ
k
k
!
e
−
λ
>
0
,
k
=
0
,
1
,
2
,
3...
\frac{\lambda ^k}{k!}e^{-\lambda}>0,k=0,1,2,3...
k!λke−λ>0,k=0,1,2,3...
∑
k
=
0
∞
e
−
λ
λ
k
k
!
=
e
−
λ
∑
k
=
0
∞
λ
k
k
!
=
e
−
λ
(
1
+
λ
+
λ
2
2
!
+
λ
3
3
!
+
.
.
.
)
=
e
λ
e
−
λ
=
1
\sum_{k=0}^{\infty}e^{-\lambda}\frac{\lambda^k}{k!}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}=e^{-\lambda}(1+\lambda+\frac{\lambda ^2}{2!}+\frac{\lambda ^3}{3!}+...)=e^\lambda e^{-\lambda}=1
k=0∑∞e−λk!λk=e−λk=0∑∞k!λk=e−λ(1+λ+2!λ2+3!λ3+...)=eλe−λ=1 这也就引出了一种非常重要的分布,也就是泊松分布。
泊松分布
若离散型随机变量X的分布为
P
(
X
=
k
)
=
λ
k
k
!
e
−
λ
,
k
=
0
,
1
,
2...
,
λ
>
0
P(X=k)=\frac{\lambda ^{k}}{k!}e^{-\lambda},k=0,1,2...,λ>0
P(X=k)=k!λke−λ,k=0,1,2...,λ>0 则称X服从参数为λ的泊松分布,记为X~P(λ)。
稀有事件
在每次试验中出现概率很小的事件称为稀有事件。
由泊松定理,n重伯努利试验中稀有事件出现的次数近似服从泊松分布。
几何分布
若X的分布为
P
(
X
=
k
)
=
q
k
−
1
p
,
k
=
1
,
2
,
3...
P(X=k)=q^{k-1}p,k=1,2,3...
P(X=k)=qk−1p,k=1,2,3... 称X服从参数为p的几何分布。
几何分布具有无记忆性。
超几何分布
若X的分布为
P
(
X
=
m
)
=
C
M
m
C
N
−
M
n
−
m
C
N
n
,
m
=
0
,
1...
l
,
l
=
m
i
n
(
M
,
n
)
P(X=m)=\frac{C_{M}^{m}C_{N-M}^{n-m}}{C_{N}^{n}},m=0,1...l,l=min(M,n)
P(X=m)=CNnCMmCN−Mn−m,m=0,1...l,l=min(M,n) 称X服从超几何分布。
3 随机变量的分布函数
分布函数的概念与性质
设X是一随机变量,对任意的实数x,令
F
(
x
)
=
P
(
X
≤
x
)
F(x)=P(X≤x)
F(x)=P(X≤x) 称F(x)为X的分布函数。
a. 在上式中,X是随机变量,x是自变量,F(x)是随机变量X取值不大于x的概率。
b. 对于任意实数
x
1
<
x
2
x_{1}<x_{2}
x1<x2,
P
{
x
1
<
X
≤
x
2
}
=
P
{
X
≤
x
2
}
−
P
{
X
≤
x
1
}
=
F
(
x
2
)
−
F
(
x
1
)
P\{ x_{1}<X≤x_{2}\}=P\{ X≤x_{2}\}-P\{ X≤x_{1}\}=F(x_{2})-F(x_{1})
P{x1<X≤x2}=P{X≤x2}−P{X≤x1}=F(x2)−F(x1) c. 分布函数是一个普通的函数,通过它,我们可以用数学分析的工具来研究随机变量。
离散型随机变量的分布函数
分布函数和分布律的关系如下 分 布 律 P ( X = x k ) = p k 分布律P(X=x_{k})=p_{k} 分布律P(X=xk)=pk ↓ ↓ ↓ 分 布 函 数 F ( x ) = P ( X ≤ x ) = ∑ x k ≤ x p k 分布函数F(x)=P(X≤x)=\sum _{x_{k}≤x}p_{k} 分布函数F(x)=P(X≤x)=xk≤x∑pk 分布函数F(x)的图形是阶梯形、右连续的曲线,其在 X = x k , k = 1 , 2 , 3... X=x_{k},k=1,2,3... X=xk,k=1,2,3...处有跳跃,其跳跃值恰好等于 P ( X = x k ) = p k P(X = x_{k})= p_k P(X=xk)=pk
性质
① 单调性:若
x
1
<
x
2
x_1<x_2
x1<x2,则
F
(
x
1
)
≤
F
(
x
2
)
F(x_1)≤F(x_2)
F(x1)≤F(x2)
② 规范性:对于任意实数x,均有
lim
x
→
−
∞
F
(
x
)
=
0
\lim_{x \rightarrow -\infty}F(x)=0
x→−∞limF(x)=0
lim
x
→
+
∞
F
(
x
)
=
1
\lim_{x \rightarrow +\infty}F(x)=1
x→+∞limF(x)=1 ③ 右连续性:对于任意的实数
x
0
x_0
x0,有
lim
x
→
x
0
+
F
(
x
)
=
F
(
x
0
)
\lim_{x \rightarrow x_0^+}F(x)=F(x_0)
x→x0+limF(x)=F(x0)
4 连续型随机变量
连续型随机变量及其概率密度
设随机变量X的分布函数为F(x),若存在一个非负可积函数f(x),使对任意的实数x,均有
F
(
x
)
=
∫
−
∞
x
f
(
t
)
d
t
F(x)=\int_{-\infty}^xf(t)dt
F(x)=∫−∞xf(t)dt 则称X是连续型随机变量,称f(x)是X的概率密度或密度函数,简称密度。
连续型随机变量X的分布函数F(x)和密度函数f(x)统称为X的概率分布,简称X的分布。
概率密度的意义
反映了X在x附近取值的概率。
f
(
x
)
≈
P
(
x
<
X
≤
x
+
Δ
x
)
Δ
x
f(x) \approx \frac{P(x<X≤x+ \Delta x)}{ \Delta x}
f(x)≈ΔxP(x<X≤x+Δx) 若x为f(x)的连续点,则
lim
Δ
x
→
0
P
(
x
<
X
≤
x
+
Δ
x
)
Δ
x
=
lim
Δ
x
→
0
∫
x
x
+
Δ
x
f
(
t
)
d
t
Δ
x
=
lim
Δ
x
→
0
f
(
x
+
θ
Δ
x
)
Δ
x
Δ
x
=
f
(
x
)
\lim_{\Delta x\rightarrow 0}\frac{P(x<X≤x+ \Delta x)}{ \Delta x}=\lim_{\Delta x\rightarrow 0}\frac{\int_{x}^{x+ \Delta x}f(t)dt}{ \Delta x}=\lim_{\Delta x\rightarrow 0}\frac{f(x+θΔx)Δx}{Δx}=f(x)
Δx→0limΔxP(x<X≤x+Δx)=Δx→0limΔx∫xx+Δxf(t)dt=Δx→0limΔxf(x+θΔx)Δx=f(x) 要注意的是,密度函数f(x)在某点处a的高度,并不反映X取值的概率。但是,这个高度越大,则X取a附近的值的概率就越大。也可以说,在某点密度曲线的高度反映了概率在该点的密集程度。
概率密度函数的性质
①
f
(
x
)
≥
0
f(x)≥0
f(x)≥0
②
∫
−
∞
∞
f
(
x
)
d
x
=
1
\int_{-\infty}^\infty f(x)dx=1
∫−∞∞f(x)dx=1
以上两条性质是判定一个函数f(x)是否为某随机变量X的概率密度函数的充要条件。
③ 对于连续型随机变量X
P
{
X
∈
G
}
=
∫
G
f
(
x
)
d
x
P\{X \in G\}=\int_Gf(x)dx
P{X∈G}=∫Gf(x)dx
P
(
a
<
X
≤
b
)
=
∫
a
b
f
(
x
)
d
x
P(a<X≤b)=\int_a^bf(x)dx
P(a<X≤b)=∫abf(x)dx
P
(
X
≤
b
)
=
∫
−
∞
b
f
(
x
)
d
x
P(X≤b)=\int_{-\infty}^bf(x)dx
P(X≤b)=∫−∞bf(x)dx
P
(
X
>
a
)
=
∫
a
∞
f
(
x
)
d
x
P(X>a)=\int_a^{\infty}f(x)dx
P(X>a)=∫a∞f(x)dx
连续型随机变量取任意指定值的概率为0
P(X=a)=0,a为任一指定值。
① 对于连续型随机变量X,有
P
(
a
≤
X
≤
b
)
=
P
(
a
≤
X
<
b
)
=
P
(
a
<
X
≤
b
)
=
P
(
a
<
X
<
b
)
P(a≤X≤b)=P(a≤X<b)=P(a<X≤b)=P(a<X<b)
P(a≤X≤b)=P(a≤X<b)=P(a<X≤b)=P(a<X<b) ② 由P(A)=0,不能推出A=Φ。
几种常见的分布
均匀分布
若随机变量X的概率密度为
f
(
x
)
=
{
1
b
−
a
a
≤
X
≤
b
0
其
他
f(x)=\begin{cases}\frac{1}{b-a} & a≤X≤b \\0 & 其他\end{cases}
f(x)={b−a10a≤X≤b其他 则称X在[a,b]上服从均匀分布,记为X~U[a,b]。
性质
若X取值在区间[a,b]上,并且它在[a,b]中任意小区间内取值的概率与这个小区间的长度成正比,则X~U[a,b]。
一般地,设D是轴上一些不相交的区间之和,若X的概率密度为
f
(
x
)
=
{
1
D
的
长
度
x
∈
D
0
其
他
f(x)=\begin{cases}\frac{1}{D的长度} & x\in D \\0 & 其他\end{cases}
f(x)={D的长度10x∈D其他 则称X在D上服从均匀分布。
指数分布
若随机变量的X的概率密度为
f
(
x
)
=
{
1
λ
e
−
x
/
λ
x
>
0
0
x
≤
0
f(x)=\begin{cases}{\frac{1}{\lambda}e^{-x/\lambda}} & x>0 \\0 & x≤0\end{cases}
f(x)={λ1e−x/λ0x>0x≤0 其中常数λ>0,则称X服从参数为λ的指数分布,记为X~E(λ)。
指数分布具有无记忆性。
正态分布
正态分布
若随机变量X的概率密度为
f
(
x
)
=
1
σ
2
π
e
−
(
x
−
μ
)
2
2
σ
2
,
−
∞
<
x
<
∞
f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty <x<\infty
f(x)=σ2π1e−2σ2(x−μ)2,−∞<x<∞ 其中μ和σ都是常数,μ任意,σ>0,则称X服从参数为
μ
μ
μ和
σ
2
σ^2
σ2的正态分布。
记作
X
∼
N
(
μ
,
σ
2
)
X\sim N(μ,σ^2)
X∼N(μ,σ2)
正态分布密度函数的性质
① 正态分布的密度曲线是一条关于μ对称的钟形曲线,f(μ+c)=f(μ-c)。特点是两头大,中间小,左右对称。在x=μ处达到最大值:
f
(
μ
)
=
1
2
π
σ
f(μ)=\frac{1}{\sqrt{2\pi}\sigma}
f(μ)=2πσ1
② 当x→±∞时,f(x)→0,这说明曲线f(x)在向左右伸展时,越来越贴近x轴,即f(x)以x轴为渐近线。
③ x=μ±σ为f(x)的两个拐点的横坐标。
④ μ决定了图形的中心位置,σ决定了图形中峰的陡峭程度。
⑤ 如果一个随机指标受到诸多因素的影响,但其中任何一个因素都不起决定性作用,则该随机指标一定服从或近似服从正态分布。
标准正态分布
μ=0,σ=1的正态分布称为标准正态分布,其密度函数常用φ(x)表示。
ϕ
(
x
)
=
1
2
π
e
−
x
2
2
,
−
∞
<
x
<
∞
\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty<x<\infty
ϕ(x)=2π1e−2x2,−∞<x<∞
Φ
(
x
)
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}dt
Φ(x)=2π1∫−∞xe−2t2dt 其中
Φ
(
0
)
=
0.5
\Phi(0)=0.5
Φ(0)=0.5
Φ
(
−
x
)
=
1
−
Φ
(
x
)
\Phi(-x)=1-\Phi(x)
Φ(−x)=1−Φ(x) 正态分布都可以化成标准正态分布,对于一般的正态分布
X
∼
N
(
μ
,
σ
2
)
X \sim N(μ,\sigma^2)
X∼N(μ,σ2),则
X
−
μ
σ
∼
N
(
0
,
1
)
\frac{X-\mu}{\sigma}\sim N(0,1)
σX−μ∼N(0,1)。
对于任意的实数
x
1
,
x
2
(
x
1
<
x
2
)
x_1,x_2(x_1<x_2)
x1,x2(x1<x2),有
P
(
X
≤
x
1
)
=
Φ
(
x
1
−
μ
σ
)
P(X≤x_1)=\Phi(\frac{x_1-\mu}{\sigma})
P(X≤x1)=Φ(σx1−μ)
P
(
X
>
x
1
)
=
1
−
Φ
(
x
1
−
μ
σ
)
P(X>x_1)=1-\Phi(\frac{x_1-\mu}{\sigma})
P(X>x1)=1−Φ(σx1−μ)
P
(
x
1
<
X
<
x
2
)
=
Φ
(
x
2
−
μ
σ
)
−
Φ
(
x
1
−
μ
σ
)
P(x_1<X<x_2)=\Phi(\frac{x_2-\mu}{\sigma})-\Phi(\frac{x_1-\mu}{\sigma})
P(x1<X<x2)=Φ(σx2−μ)−Φ(σx1−μ)
连续型随机变量的分布函数
密度函数与分布函数的关系
如果X是连续型随机变量,有概率密度f(x),则
F
(
x
)
=
∫
−
∞
x
f
(
t
)
d
t
F(x)=\int_{-\infty}^xf(t)dt
F(x)=∫−∞xf(t)dt 并且在f(x)的连续点有
f
(
x
)
=
F
′
(
x
)
f(x)=F^{'}(x)
f(x)=F′(x) 对于连续型的随机变量,密度函数唯一决定分布函数。
连续型随机变量的分布函数一定是连续的,分布函数如果不连续就不是连续型随机变量。(除了连续型分布和离散型分布以外理论上还存在其它类型的分布)
常见的连续型随机变量的分布函数
① 均匀分布:若X~U(a,b),则其分布函数为
f
(
x
)
=
{
0
x
<
a
x
−
a
b
−
a
a
≤
x
<
b
1
x
≥
b
f(x)=\begin{cases}0& x<a \\{\frac{x-a}{b-a}} & a≤x<b\\ 1 & x≥b\end{cases}
f(x)=⎩⎪⎨⎪⎧0b−ax−a1x<aa≤x<bx≥b
② 指数分布:若X~E(λ),则其分布函数为
f
(
x
)
=
{
1
−
e
−
λ
x
x
>
0
0
x
≤
0
f(x)=\begin{cases}{1-e^{-\lambda x}} & x>0 \\0 & x≤0\end{cases}
f(x)={1−e−λx0x>0x≤0 图中
λ
=
1
θ
λ=\frac{1}{θ}
λ=θ1
③ 正态分布:若
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma ^2)
X∼N(μ,σ2),则其分布函数为
F
(
x
)
=
1
2
π
σ
∫
−
∞
x
e
−
(
t
−
μ
)
2
2
σ
2
d
t
F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^xe^{-\frac{(t-\mu)^2}{2\sigma^2}}dt
F(x)=2πσ1∫−∞xe−2σ2(t−μ)2dt
④ 标准正态分布:若X~N(0,1),则其分布函数为
Φ
(
x
)
=
∫
−
∞
x
1
2
π
e
−
t
2
2
d
t
\Phi(x)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt
Φ(x)=∫−∞x2π1e−2t2dt
5 随机变量函数的分布
设X,Y是两个随机变量,y=g(x)是一个已知函数,如果当X取值x时,Y取值为g(x),则称Y是随机变量X的函数。记为Y=g(X)。
已知X的分布,求Y的分布。
对于离散型来说,直接带入每一个值,直接求解。
连续型随机变量函数的分布
① 当y=g(x)是单调函数
若连续型随机变量X只在(a,b)上取值,它的概率密度为
f
X
(
x
)
f_X(x)
fX(x),又y=g(x)是严格单调的可导函数,则Y=g(X)是连续型随机变量,其概率密度为
f
Y
(
y
)
=
{
f
X
(
g
−
1
(
y
)
)
∣
[
g
−
1
(
y
)
]
′
∣
y
∈
(
α
,
β
)
0
其
他
f_Y(y)=\begin{cases}{f_X(g^{-1}(y))|[g^{-1}(y)]^{'}|} & y\in(\alpha,\beta) \\0 & 其他\end{cases}
fY(y)={fX(g−1(y))∣[g−1(y)]′∣0y∈(α,β)其他
步骤
1) 证明严格单调可导;
2) 求值域;
3) 求反函数;
4) 求反函数导数;
5) 代入公式。
② 当y=g(x)为非单调函数
步骤
1) 求出Y的分布函数。
F
Y
(
y
)
=
P
(
Y
≤
y
)
=
P
(
g
(
X
)
≤
y
)
F_Y(y)=P(Y≤y)=P(g(X)≤y)
FY(y)=P(Y≤y)=P(g(X)≤y) 2)
f
Y
(
y
)
=
F
Y
′
(
y
)
f_Y(y)=F^{'}_Y(y)
fY(y)=FY′(y)
三、多维随机变量及其分布
1 二维随机变量及其分布
多维随机变量定义
给定概率空间
(
S
,
ξ
,
P
)
(S,\xi,P)
(S,ξ,P),若
X
1
,
X
2
.
.
.
X
n
X_1,X_2...X_n
X1,X2...Xn是定义在样本空间S上的n个随机变量,则称
X
=
(
X
1
,
.
.
.
,
X
n
)
X=(X_1,...,X_n)
X=(X1,...,Xn)为n维随机变量,或称为n维随机向量。
联合分布函数
设(X,Y)是二维随机变量,对于任意的实数x和y,令
F
(
x
,
y
)
=
P
{
X
≤
x
,
Y
≤
y
}
F(x,y)=P\{X≤x,Y≤y\}
F(x,y)=P{X≤x,Y≤y},则称F(x,y)为(X,Y)的联合分布函数。
明确联合分布函数的几何意义。即取值落入直角坐标系上左下角的区域的概率。
联合分布函数的性质
① 单调性:对于x和y,F(x,y)都是单调不减函数。
② 规范性:对于x,y,有
lim
x
→
−
∞
F
(
x
,
y
)
=
0
\lim_{x \rightarrow -\infty}F(x,y)=0
x→−∞limF(x,y)=0
lim
y
→
−
∞
F
(
x
,
y
)
=
0
\lim_{y \rightarrow -\infty}F(x,y)=0
y→−∞limF(x,y)=0
lim
x
,
y
→
+
∞
F
(
x
,
y
)
=
1
\lim_{x,y \rightarrow +\infty}F(x,y)=1
x,y→+∞limF(x,y)=1 ③ 右连续性:对于x和y,F(x,y)都是右连续的,即对于任意的实数
x
0
,
y
0
x_0,y_0
x0,y0,均有
lim
x
→
x
0
+
F
(
x
,
y
)
=
F
(
x
0
,
y
)
\lim_{x \rightarrow x_0^+}F(x,y)=F(x_0,y)
x→x0+limF(x,y)=F(x0,y)
lim
y
→
y
0
+
F
(
x
,
y
)
=
F
(
x
,
y
0
)
\lim_{y \rightarrow y_0^+}F(x,y)=F(x,y_0)
y→y0+limF(x,y)=F(x,y0)
边缘分布函数
记(X,Y)的分量X和Y的分布函数分别为
F
X
(
x
)
F_X(x)
FX(x)和
F
Y
(
y
)
F_Y(y)
FY(y),称他们为(X,Y)的边缘分布函数。
F
X
(
x
)
=
P
(
X
≤
x
)
=
P
(
X
≤
x
,
Y
<
+
∞
)
=
F
(
x
,
+
∞
)
F_X(x)=P(X≤x)=P(X≤x,Y<+\infty)=F(x,+\infty)
FX(x)=P(X≤x)=P(X≤x,Y<+∞)=F(x,+∞)
F
Y
(
y
)
=
P
(
Y
≤
y
)
=
P
(
X
<
+
∞
,
Y
≤
y
)
=
F
(
+
∞
,
y
)
F_Y(y)=P(Y≤y)=P(X<+\infty,Y≤y)=F(+\infty,y)
FY(y)=P(Y≤y)=P(X<+∞,Y≤y)=F(+∞,y)
2 离散型随机向量及其分布
定义
若二维随机变量(X,Y)可能取的值(向量)是有限多个或可列无穷多个,则称(X,Y)为二维离散型随机变量。
联合分布律
边缘分布律
3 连续型随机向量及其联合密度
定义
设二维随机变量(X,Y)的分布函数为F(x,y),若存在非负可积函数f(x,y),对任意实数x和y,有
F
(
x
,
y
)
=
∫
−
∞
x
∫
−
∞
y
f
(
u
,
v
)
d
v
d
u
F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(u,v)dvdu
F(x,y)=∫−∞x∫−∞yf(u,v)dvdu 则称(X,Y)为连续型二维随机变量,且称函数f(x,y)为二维随机变量(X,Y)的联合密度函数,简称联合密度或概率密度。
性质
①
f
(
x
,
y
)
≥
0
f(x,y)≥0
f(x,y)≥0
②
∫
−
∞
+
∞
∫
−
∞
+
∞
f
(
x
,
y
)
d
x
d
y
=
1
\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)dxdy=1
∫−∞+∞∫−∞+∞f(x,y)dxdy=1
③ 若f(x,y)在(x,y)处连续,则
∂
2
F
(
x
,
y
)
∂
x
∂
y
=
f
(
x
,
y
)
\frac{\partial^2F(x,y)}{\partial x\partial y}=f(x,y)
∂x∂y∂2F(x,y)=f(x,y) ④ 设G为平面xoy的一个区域,则有
P
(
(
X
,
Y
)
∈
G
)
=
∫
∫
G
f
(
x
,
y
)
d
x
d
y
P((X,Y)\in G)=\int\int_Gf(x,y)dxdy
P((X,Y)∈G)=∫∫Gf(x,y)dxdy 步骤:1) 在坐标系中画出f(x,y)的非零区域;2) 画出区域G;3) 找到f(x,y)非零区域和G相交的区域;4) 找到积分限;5) 计算积分。
边缘密度函数
若(X,Y)为连续型随机变量,则X和Y均为连续型随机变量,称X和Y的概率密度函数
f
X
(
x
)
f_X(x)
fX(x)和
f
Y
(
y
)
f_Y(y)
fY(y)为(X,Y)关于X和Y的边缘密度函数,简称边缘密度。
f(x,y)与边缘密度函数的关系
f
X
(
x
)
=
∫
−
∞
+
∞
f
(
x
,
y
)
d
y
f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy
fX(x)=∫−∞+∞f(x,y)dy
f
Y
(
y
)
=
∫
−
∞
+
∞
f
(
x
,
y
)
d
x
f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx
fY(y)=∫−∞+∞f(x,y)dx 步骤:1) 画出f(x,y)的非零区域;2) 在非零区域找到x(y)的范围;3) 在上述范围内固定x(y),找到y(x)的积分限;4) 计算积分。
二维均匀分布
设D为平面上的有界区域,D的面积大于0,若二维随机变量(X,Y)的联合密度为
f
(
x
,
y
)
=
{
1
D
的
面
积
(
x
,
y
)
∈
D
0
(
x
,
y
)
∉
D
f(x,y) =\begin{cases}{\frac{1}{D的面积}} & (x,y)\in D\\0 & (x,y)\notin D\end{cases}
f(x,y)={D的面积10(x,y)∈D(x,y)∈/D 则称(X,Y)在D上服从均匀分布。
二维正态分布
若二维随机变量(X,Y)具有概率密度
f
(
x
,
y
)
=
1
2
π
σ
1
σ
2
1
−
ρ
2
e
−
1
2
(
1
−
ρ
2
)
[
(
x
−
μ
1
σ
1
)
2
−
2
ρ
(
x
−
μ
1
σ
1
)
(
y
−
μ
2
σ
2
)
+
(
y
−
μ
2
σ
2
)
2
]
f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}[(\frac{x-\mu_1}{\sigma_1})^2-2\rho(\frac{x-\mu_1}{\sigma_1})(\frac{y-\mu_2}{\sigma_2})+(\frac{y-\mu_2}{\sigma_2})^2]}
f(x,y)=2πσ1σ21−ρ21e−2(1−ρ2)1[(σ1x−μ1)2−2ρ(σ1x−μ1)(σ2y−μ2)+(σ2y−μ2)2] 其中
μ
1
,
μ
2
,
σ
1
,
σ
2
,
ρ
\mu_1,\mu_2,\sigma_1,\sigma_2,\rho
μ1,μ2,σ1,σ2,ρ均为常数,且
σ
1
>
0
,
σ
2
>
0
,
∣
ρ
∣
<
1
\sigma_1>0,\sigma_2>0,|\rho|<1
σ1>0,σ2>0,∣ρ∣<1,则称(X,Y)服从参数为
μ
1
,
μ
2
,
σ
1
,
σ
2
,
ρ
\mu_1,\mu_2,\sigma_1,\sigma_2,\rho
μ1,μ2,σ1,σ2,ρ的二维正态分布。记作
(
X
,
Y
)
∼
N
(
μ
1
,
μ
2
,
σ
1
2
,
σ
2
2
,
ρ
)
(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)
(X,Y)∼N(μ1,μ2,σ12,σ22,ρ)。
性质
二维正态分布的两个边缘密度仍然是正态分布。即:若
(
X
,
Y
)
∼
N
(
μ
1
,
μ
2
,
σ
1
2
,
σ
2
2
,
ρ
)
(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)
(X,Y)∼N(μ1,μ2,σ12,σ22,ρ),则
X
∼
N
(
μ
1
,
σ
1
2
)
X\sim N(\mu_1,\sigma_1^2)
X∼N(μ1,σ12)且
Y
∼
N
(
μ
2
,
σ
2
2
)
Y\sim N(\mu_2,\sigma_2^2)
Y∼N(μ2,σ22)。
随机变量的独立性
若二维随机变量(X,Y)对任意实数x和y均有: P ( X ≤ x , Y ≤ y ) = P ( X ≤ x ) P ( Y ≤ y ) P(X≤x,Y≤y)=P(X≤x)P(Y≤y) P(X≤x,Y≤y)=P(X≤x)P(Y≤y) 成立,则称随机变量是相互独立的。即设两个随机变量X和Y,若对任意实数x和y,有 F ( x , y ) = F X ( x ) F Y ( y ) F(x,y)=F_X(x)F_Y(y) F(x,y)=FX(x)FY(y) 则称X和Y相互独立。
性质
若X和Y相互独立,则对一切集合
B
1
,
B
2
B_1,B_2
B1,B2,有
P
(
X
∈
B
1
,
Y
∈
B
2
)
=
P
(
X
∈
B
1
)
P
(
Y
∈
B
2
)
P(X \in B_1,Y \in B_2)=P(X \in B_1)P(Y\in B_2)
P(X∈B1,Y∈B2)=P(X∈B1)P(Y∈B2)
定理
① 若(X,Y)是离散型随机变量,则X与Y相互独立的充分必要条件是
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
(
X
=
x
i
)
P
(
Y
=
y
j
)
P(X=x_i,Y=y_j)=P(X=x_i)P(Y=y_j)
P(X=xi,Y=yj)=P(X=xi)P(Y=yj) 若(X,Y)是离散型随机变量,则X与Y不相互独立的充分必要条件是存在
x
i
,
y
i
x_i,y_i
xi,yi使得
P
(
X
=
x
i
,
Y
=
y
j
)
≠
P
(
X
=
x
i
)
P
(
Y
=
y
j
)
P(X=x_i,Y=y_j)≠P(X=x_i)P(Y=y_j)
P(X=xi,Y=yj)=P(X=xi)P(Y=yj) ② 若(X,Y)是连续型随机变量,则X与Y独立的充分必要条件是
f
(
x
,
y
)
=
f
X
(
x
)
f
Y
(
y
)
f(x,y)=f_X(x)f_Y(y)
f(x,y)=fX(x)fY(y) 若(X,Y)是连续型随机变量,则X与Y不独立的充分必要条件是,存在大于0的区域D,(x,y)∈D,使得
f
(
x
,
y
)
≠
f
X
(
x
)
f
Y
(
y
)
f(x,y)≠f_X(x)f_Y(y)
f(x,y)=fX(x)fY(y)
证明独立性
① 求联合分布律(联合密度);
② 求边缘分布律(边缘密度);
③ 验证联合分布律(联合密度)等于边缘分布律(边缘密度)的乘积。
证明不独立
① 求联合分布律(联合密度);
② 求边缘分布律(边缘密度);
③ 离散型:找到
x
i
,
y
i
x_i,y_i
xi,yi,使得
P
(
X
=
x
i
,
Y
=
y
j
)
≠
P
(
X
=
x
i
)
P
(
Y
=
y
j
)
P(X=x_i,Y=y_j)≠P(X=x_i)P(Y=y_j)
P(X=xi,Y=yj)=P(X=xi)P(Y=yj)。
连续型:找到面积大于0的区域D,使得
f
(
x
,
y
)
≠
f
X
(
x
)
f
Y
(
y
)
,
(
x
,
y
)
∈
D
f(x,y)≠f_X(x)f_Y(y),(x,y)\in D
f(x,y)=fX(x)fY(y),(x,y)∈D
对于正态分布,独立和不相关等价。
n维随机变量
设n维随机变量为
(
X
1
,
.
.
.
,
X
n
)
(X_1,...,X_n)
(X1,...,Xn)的分布函数定义为
F
(
x
1
,
.
.
.
,
x
n
)
=
P
(
X
1
≤
x
1
,
.
.
.
,
X
n
≤
x
n
)
F(x_1,...,x_n)=P(X_1≤x_1,...,X_n≤x_n)
F(x1,...,xn)=P(X1≤x1,...,Xn≤xn),若对任意实数
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn,有
P
(
X
1
≤
x
1
,
.
.
.
,
X
n
≤
x
n
)
=
P
(
X
1
≤
x
1
)
.
.
.
P
(
X
n
≤
x
n
)
P(X_1≤x_1,...,X_n≤x_n)=P(X_1≤x_1)...P(X_n≤x_n)
P(X1≤x1,...,Xn≤xn)=P(X1≤x1)...P(Xn≤xn) 那么称随机变量
(
X
1
,
.
.
.
,
X
n
)
(X_1,...,X_n)
(X1,...,Xn)是相互独立的。
定理
若
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn相互独立,而
Y
1
=
g
1
(
X
1
,
.
.
.
,
X
m
)
,
Y
2
=
g
2
(
X
m
+
1
,
.
.
.
,
X
n
)
Y_1=g_1(X_1,...,X_m),Y_2=g_2(X_{m+1},...,X_n)
Y1=g1(X1,...,Xm),Y2=g2(Xm+1,...,Xn),则
Y
1
Y_1
Y1与
Y
2
Y_2
Y2独立。(
g
1
,
g
2
g_1,g_2
g1,g2为连续函数)
4 随机变量函数的分布
设(X,Y)是二维随机变量, z = φ ( x , y ) z=\varphi(x,y) z=φ(x,y)是一个已知的二元函数,如果当(X,Y)取值为(x,y)时,随机变量Z取值为 z = φ ( x , y ) z=\varphi(x,y) z=φ(x,y),则称Z是二维随机变量的函数,记作 Z = φ ( X , Y ) Z=\varphi(X,Y) Z=φ(X,Y)。
已知(X,Y)的分布,求Z的分布。
离散型随机变量(X,Y)的函数的概率分布
连续型随机变量(X,Y)的函数的概率分布
已知(X,Y)~f(x,y),求Z=φ(X,Y)的概率分布。
①
F
Z
(
z
)
=
P
(
Z
≤
z
)
=
P
{
φ
(
X
,
Y
)
≤
z
}
=
∫
∫
φ
(
x
,
y
)
≤
z
f
(
x
,
y
)
d
x
d
y
F_Z(z)=P(Z≤z)=P\{\varphi(X,Y)≤z\}=\int\int_{\varphi(x,y)≤z}f(x,y)dxdy
FZ(z)=P(Z≤z)=P{φ(X,Y)≤z}=∫∫φ(x,y)≤zf(x,y)dxdy
② 若Z为连续型随机变量,则有
f
(
z
)
=
F
′
(
z
)
f(z)=F^{'}(z)
f(z)=F′(z)。
和的分布Z=X+Y
定理:若(X,Y)的联合概率密度为f(x,y),则Z=X+Y的概率密度为
f
Z
(
z
)
=
∫
−
∞
∞
f
(
x
,
z
−
x
)
d
x
f_Z(z)=\int_{-\infty}^\infty f(x,z-x)dx
fZ(z)=∫−∞∞f(x,z−x)dx 或
f
Z
(
z
)
=
∫
−
∞
∞
f
(
z
−
y
,
y
)
d
y
f_Z(z)=\int_{-\infty}^\infty f(z-y,y)dy
fZ(z)=∫−∞∞f(z−y,y)dy 当X与Y独立时,上述两式可以化为
f
Z
(
z
)
=
∫
−
∞
∞
f
X
(
x
)
f
Y
(
z
−
x
)
d
x
f_Z(z)=\int_{-\infty}^\infty f_X(x)f_Y(z-x)dx
fZ(z)=∫−∞∞fX(x)fY(z−x)dx
f
Z
(
z
)
=
∫
−
∞
∞
f
X
(
z
−
y
)
f
Y
(
y
)
d
y
f_Z(z)=\int_{-\infty}^\infty f_X(z-y)f_Y(y)dy
fZ(z)=∫−∞∞fX(z−y)fY(y)dy 即
f
Z
(
z
)
=
f
X
(
z
)
∗
f
Y
(
z
)
f_Z(z)=f_X(z)*f_Y(z)
fZ(z)=fX(z)∗fY(z) 称之为
f
X
(
z
)
f_X(z)
fX(z)与
f
Y
(
z
)
f_Y(z)
fY(z)的卷积。
步骤
① 在xoz平面(zoy平面)画出f(x,z-x)(f(z-y,y))的非零区域。
② 找出非零区域中z的范围。
③ 上述范围中固定z,找出x(y)的积分限。
④ 计算。
正态随机变量的性质
有限个独立正态变量的线性组合仍然服从正态分布。
5 M=max(X,Y)及N=min(X,Y)的分布
离散型随机变量
连续型随机变量
F M ( z ) = F X ( z ) F Y ( z ) F_M(z)= F_X(z)F_Y(z) FM(z)=FX(z)FY(z) F N ( z ) = 1 − [ 1 − F X ( z ) ] [ 1 − F Y ( z ) ] F_N(z)= 1-[1-F_X(z)][1-F_Y(z)] FN(z)=1−[1−FX(z)][1−FY(z)] 当n个随机变量独立同分布时 F M ( z ) = [ F ( z ) ] n F_M(z)=[F(z)]^n FM(z)=[F(z)]n F N ( z ) = 1 − [ 1 − F ( z ) ] n F_N(z)=1-[1-F(z)]^n FN(z)=1−[1−F(z)]n
四、数字特征
1 数学期望
离散型随机变量的数学期望
定义
设离散型随机变量X的分布律为
P
(
X
=
x
k
)
=
p
k
,
k
=
1
,
2...
P(X=x_k)=p_k,k=1,2...
P(X=xk)=pk,k=1,2...,若级数
∑
k
=
1
∞
x
k
p
k
\sum_{k=1}^{\infty}x_kp_k
∑k=1∞xkpk绝对收敛,则称它为X的数学期望或均值,记作E(X)。若
∑
k
=
1
∞
∣
x
k
∣
p
k
\sum_{k=1}^{\infty}|x_k|p_k
∑k=1∞∣xk∣pk发散,则称X的数学期望不存在。
说明
① 随机变量的数学期望是一个实数,它体现了随机变量取值的平均。
② 数学期望存在的条件:绝对收敛。不是所有的随机变量都有数学期望。
③ 当X服从某一分布时,也称某分布的数学期望为E(X)。
连续型随机变量的数学期望
定义一
分割小区间,近似求概率密度图像的面积。
定义二
设X是连续型随机变量,其密度函数为f(x),如果
∫
−
∞
∞
x
f
(
x
)
d
x
\int_{-\infty}^\infty xf(x)dx
∫−∞∞xf(x)dx绝对收敛,定义X的数学期望为
E
(
X
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
E(X)=\int_{-\infty}^\infty xf(x)dx
E(X)=∫−∞∞xf(x)dx
常见随机变量的数学期望
① 参数为p的0-1分布:
p
p
p
② B(n,p):
n
p
np
np
③ π(λ):
λ
\lambda
λ
④ 区间(a,b)上的均匀分布:
a
+
b
2
\frac{a+b}{2}
2a+b
⑤ E(λ):
λ
\lambda
λ
⑥ N(μ,
σ
2
\sigma^2
σ2):
μ
\mu
μ
随机变量函数的数学期望
离散型
方法一:根据定义
已知
Y
=
g
(
X
)
Y=g(X)
Y=g(X),求
E
(
g
(
X
)
)
E(g(X))
E(g(X))。
方法二:直接求
设Y=g(X),若离散型随机变量X的分布律为
P
(
X
=
x
k
)
=
p
k
,
k
=
1
,
2...
P(X=x_k)=p_k,k=1,2...
P(X=xk)=pk,k=1,2...,级数
∑
k
=
1
∞
g
(
x
k
)
p
k
\sum_{k=1}^\infty g(x_k)p_k
∑k=1∞g(xk)pk绝对收敛,则Y的数学期望存在,且为此级数。
连续型
设Y=g(X),若连续型随机变量X的概率密度为f(x),
∫
−
∞
+
∞
g
(
x
)
f
(
x
)
d
x
\int_{-\infty}^{+\infty}g(x)f(x)dx
∫−∞+∞g(x)f(x)dx绝对收敛,则Y的数学期望存在,且为此积分。
二维离散型
∑
i
=
1
∞
∑
j
=
1
∞
g
(
x
i
,
y
j
)
p
i
j
\sum_{i=1}^\infty\sum_{j=1}^\infty g(x_i,y_j)p_{ij}
i=1∑∞j=1∑∞g(xi,yj)pij
二维连续型
∫
−
∞
+
∞
∫
−
∞
+
∞
g
(
x
,
y
)
f
(
x
,
y
)
d
x
d
y
\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy
∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
数学期望的性质
① 设C为常数,则有E©=C。
② 设C为常数,X为随机变量,则有E(CX)=CE(X)。
③ 设X,Y为任意两个随机变量,则有E(X+Y)=E(X)+E(Y)。
④ 设X,Y为相互独立的随机变量,则有E(XY)=E(X)E(Y)。其逆命题不成立。
⑤ 若随机变量几乎处处只取非负值,即X≥0,又E(X)存在,则E(X)≥0。
2 方差
定义
度量随机变量取值相对于其均值的离散程度。
设X是一个随机变量,若
E
[
(
X
−
E
(
X
)
)
]
2
<
∞
E[(X-E(X))]^2<\infty
E[(X−E(X))]2<∞,则称
V
a
r
(
X
)
=
E
[
(
X
−
E
(
X
)
)
]
2
Var(X)=E[(X-E(X))]^2
Var(X)=E[(X−E(X))]2为X的方差。
方差的算术平均根被称为标准差。
注
① Var(X)≥0,即方差是一个非负实数。
② 当X服从某分布时,我们也称某分布的方差为Var(X)。
③ 方差刻画了随机变量取值对于其数学期望的离散程度。若X的取值较为集中,则方差较小;若X的取值较为分散,则方差较大。
计算公式
若X为离散型:
V
a
r
(
X
)
=
∑
i
(
x
i
−
E
(
X
)
)
2
p
i
Var(X)=\sum_i(x_i-E(X))^2p_i
Var(X)=i∑(xi−E(X))2pi 若X为连续型:
V
a
r
(
X
)
=
∫
−
∞
+
∞
(
x
−
E
(
X
)
)
2
f
(
x
)
d
x
Var(X)=\int_{-\infty}^{+\infty}(x-E(X))^2f(x)dx
Var(X)=∫−∞+∞(x−E(X))2f(x)dx
若随机变量的方差存在,则 V a r ( X ) = E ( X 2 ) − E 2 ( X ) Var(X)=E(X^2)-E^2(X) Var(X)=E(X2)−E2(X)
常见分布的方差
① 参数为p的0-1分布:
p
(
1
−
p
)
p(1-p)
p(1−p)
② B(n,p):
n
p
(
1
−
p
)
np(1-p)
np(1−p)
③ P(λ):
λ
\lambda
λ
④ 区间(a,b)上的均匀分布:
(
b
−
a
)
2
12
\frac{(b-a)^2}{12}
12(b−a)2
⑤ E(λ):
λ
2
\lambda^2
λ2
⑥ N(μ,
σ
2
\sigma^2
σ2):
σ
2
\sigma^2
σ2
性质
① 若X=c,c为常数,则Var(X)=0。
② 若c为常数,随机变量X的方差存在,则cX的方差存在,且
V
a
r
(
c
X
)
=
c
2
V
a
r
(
X
)
Var(cX)=c^2Var(X)
Var(cX)=c2Var(X)。
推论:
V
a
r
(
c
X
+
b
)
=
c
2
V
a
r
(
X
)
Var(cX+b)=c^2Var(X)
Var(cX+b)=c2Var(X)。
③ 若DX,DY存在,则
V
a
r
(
X
±
Y
)
=
V
a
r
(
X
)
+
V
a
r
(
Y
)
±
2
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
Var(X±Y)=Var(X)+Var(Y)±2E[(X-E(X))(Y-E(Y))]
Var(X±Y)=Var(X)+Var(Y)±2E[(X−E(X))(Y−E(Y))] 若随机变量相互独立,且方差都存在,则
V
a
r
(
X
±
Y
)
=
V
a
r
(
X
)
+
V
a
r
(
Y
)
Var(X±Y)=Var(X)+Var(Y)
Var(X±Y)=Var(X)+Var(Y) ④ 对任意常数C,有
V
a
r
(
X
)
≤
E
(
X
−
C
)
2
Var(X)≤E(X-C)^2
Var(X)≤E(X−C)2 当且仅当C=E(X)时等号成立。
⑤ 若Var(X)存在,则Var(X)=0的充要条件为
P
(
X
=
E
(
X
)
)
=
1
P(X=E(X))=1
P(X=E(X))=1。
标准化随机变量
X ∗ = X − E ( X ) V a r ( X ) X^*=\frac{X-E(X)}{\sqrt{Var(X)}} X∗=Var(X)X−E(X)
切比雪夫不等式
设随机变量X有期望μ和方差 σ 2 \sigma^2 σ2,则对于任意给定的 ε > 0 \varepsilon >0 ε>0 有 P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2 P\{|X-\mu|≥\varepsilon\}≤\frac{\sigma^2}{\varepsilon^2} P{∣X−μ∣≥ε}≤ε2σ2
3 协方差、相关系数
协方差
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
计算
离散型:
C
o
v
(
X
,
Y
)
=
∑
i
,
j
(
x
i
−
E
(
X
)
)
(
y
i
−
E
(
Y
)
)
p
i
j
Cov(X,Y)=\sum_{i,j}(x_i-E(X))(y_i-E(Y))p_{ij}
Cov(X,Y)=i,j∑(xi−E(X))(yi−E(Y))pij 连续型:
C
o
v
(
X
,
Y
)
=
∫
−
∞
+
∞
∫
−
∞
+
∞
(
x
−
E
(
X
)
)
(
y
−
E
(
Y
)
)
f
(
x
,
y
)
d
x
d
y
Cov(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}(x-E(X))(y-E(Y))f(x,y)dxdy
Cov(X,Y)=∫−∞+∞∫−∞+∞(x−E(X))(y−E(Y))f(x,y)dxdy 其它:
C
o
v
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
Cov(X,Y)=E(XY)-E(X)E(Y)
Cov(X,Y)=E(XY)−E(X)E(Y)
若X与Y独立,则Cov(X,Y)=0。
性质
① Cov(X,a)=0
② Cov(X,Y)=Cov(Y,X)
③ Cov(X,X)=Var(X)
④ Cov(aX,bY)=abCov(X,Y)
⑤ Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y本身度量单位的影响。因此,对协方差进行标准化,引入相关系数的概念。
相关系数
ρ
X
Y
=
C
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}
ρXY=D(X)D(Y)Cov(X,Y)
ρ
X
Y
=
0
\rho_{XY}=0
ρXY=0,X,Y不相关。
ρ
X
Y
>
0
\rho_{XY}>0
ρXY>0,X,Y正相关。
ρ
X
Y
<
0
\rho_{XY}<0
ρXY<0,X,Y负相关。
独立与相关的关系
独立可推出不相关,不相关不可以推独立。
以下五条结论可两两互推:
① X与Y不相关
②
ρ
X
Y
=
0
\rho_{XY}=0
ρXY=0
③ Cov(X,Y)=0
④ E(XY)=E(X)E(Y)
⑤ D(X±Y)=D(X)+D(Y)
若X,Y服从二维正态分布,那么独立和不相关可以互推。
相关系数的性质
① |ρ|≤1。
② 若|ρ|=1,说明存在常数a和b(b≠0),使P{Y=a+bX}=1。
ρ
X
Y
=
1
\rho_{XY}=1
ρXY=1的充要条件是P{Y=a+bX}=1(b>0),这时称X与Y完全正相关。
ρ
X
Y
=
−
1
\rho_{XY}=-1
ρXY=−1的充要条件是P{Y=a+bX}=1(b<0),这时称X与Y完全负相关。
相关系数的意义
它是用来刻画X,Y线性相关程度的一个量。
若|ρ|的值越接近1,X与Y的线性相关程度越高。
若|ρ|的值越接近0,X与Y的线性相关程度越低。
矩
设二维随机变量(X,Y),k和l为非负整数。若
E
(
X
k
)
E(X^k)
E(Xk)存在,则称它为X的k阶原点矩,记作
m
k
m_k
mk。
若
E
(
X
−
E
(
X
)
)
k
E(X-E(X))^k
E(X−E(X))k存在,则称它为X的k阶中心矩,记作
c
k
c_k
ck。
若
E
(
X
k
Y
l
)
E(X_kY_l)
E(XkYl)存在,则称它为X和Y的(k,l)阶混合矩,记作
m
k
l
m_{kl}
mkl。
若
E
[
(
X
−
E
(
X
)
)
k
(
Y
−
E
(
Y
)
)
l
]
E[(X-E(X))^k(Y-E(Y))^l]
E[(X−E(X))k(Y−E(Y))l]存在,则称它为X和Y的(k,l)阶混合中心矩,记作
c
k
l
c_{kl}
ckl。
矩的相关结论
① 若X的k阶矩存在,那么对任意非负的l<k,X的l阶矩存在。
② 原点矩和中心矩可以相互表示。
五、大数定律及中心极限定理
1 大数定律
客观背景
大量的随机现象中频率的稳定性 。
辛钦大数定律
设
X
1
,
X
2
…
X_1,X_2…
X1,X2…是独立同分布的随机变量序列,且
E
(
X
i
)
=
μ
,
i
=
1
,
2
…
E(X_i)=μ,i=1,2…
E(Xi)=μ,i=1,2…则对任给
ε
>
0
\varepsilon>0
ε>0,有
lim
n
→
∞
P
{
∣
1
n
∑
i
=
1
n
X
i
−
μ
∣
<
ε
}
=
1
\lim_{n \rightarrow \infty}P\{|\frac{1}{n}\sum_{i=1}^nX_i-\mu|<\varepsilon\}=1
n→∞limP{∣n1i=1∑nXi−μ∣<ε}=1 或
1
n
∑
i
=
1
n
X
i
→
P
μ
\frac{1}{n}\sum_{i=1}^nX_i\overset{P}\rightarrow \mu
n1i=1∑nXi→Pμ 可以由切比雪夫不等式经过n取极限求得。
→
P
\overset{P}\rightarrow
→P是依概率收敛的意思。
意义
表明当n非常大时,事件发生的可能性很大。
① 辛钦大数定律表明,当重复试验次数n充分大时,样本均值与总体均值有较大偏差的概率很小。
② 辛钦大数定律给出了平均值稳定性的科学描述。
③ 辛钦大数定律为估计随机变量的期望值提供了一条切实可行的途径。
伯努利大数定律
设 S n S_n Sn是n重伯努利试验中事件A发生的次数,p是一次试验中事件A发生的概率,则对任给的 ε > 0 \varepsilon>0 ε>0,有 lim n → ∞ P { ∣ S n n − p ∣ < ε } = 1 \lim_{n \rightarrow \infty}P\{|\frac{S_n}{n}-p|<\varepsilon\}=1 n→∞limP{∣nSn−p∣<ε}=1 或 S n n → P μ \frac{S_n}{n}\overset{P}\rightarrow \mu nSn→Pμ
意义
① 伯努利大数定律表明,当重复试验次数n充分大时,事件A发生的频率
S
n
n
\frac{S_n}{n}
nSn与事件A的概率p有较大偏差的概率很小。
② 伯努利大数定律给出了频率稳定性的科学描述。
③ 伯努利大数定律提供了通过试验来确定事件概率的方法。
2 中心极限定理
大数律讨论了随机序列部分和的依概率收敛性。
中心极限定理讨论对充分大的n,随机变量序列部分和
X
1
+
X
2
+
…
+
X
n
X_1+X_2+… +X_n
X1+X2+…+Xn的概率分布问题。
观察表明,如果一个量是由大量相互独立的随机因素的影响所造成,而每一个别因素在总影响中所起的作用不大。则这种量一般都服从或近似服从正态分布。
定理一:独立同分布的中心极限定理
设随机序列{ X i X_i Xi}独立同分布,有相同的数学期望μ和方差 σ 2 \sigma^2 σ2,部分和 S n = X 1 + X 2 + … + X n S_n=X_1+X_2+… +X_n Sn=X1+X2+…+Xn,则 S n S_n Sn的标准化 ξ n = S n − n μ σ n \xi_n=\frac{S_n-n\mu}{\sigma\sqrt{n}} ξn=σnSn−nμ 依分布收敛到标准正态分布。即对任意的x,有 lim n → ∞ P { ξ n ≤ x } = Φ ( x ) \lim_{n \rightarrow \infty}P\{\xi_n≤x\}=\Phi(x) n→∞limP{ξn≤x}=Φ(x)
中心极限定理是概率论中最著名的结果之一,它不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么很多自然群体的经验频率呈现出钟形曲线这一值得注意的事实。
六、样本与抽样分布
1 总体等概念
总体与个体
一个统计问题总有它明确的研究对象,研究对象的全体称为总体(母体),总体中每个成员称为个体。
总体随研究范围而定。
然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况。因此,我们可以把每个个体具有的数量指标的全体当作总体。这样,总体就可以用一个随机变量及其分布来描述。如说总体X或总体F(x)。
统计中,总体这个概念的要旨是:总体就是一个概率分布。
容量
总体中所包含的个体的个数称为总体的容量。
容量有限的称为有限总体;
容量无限的称为无限总体。
样本(简单随机样本)
为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”。所抽取的部分个体称为样本。样本中所包含的个体数目称为样本容量。
① 代表性:
X
1
,
X
2
…
X
n
X_1,X_2… X_n
X1,X2…Xn中每一个与所考察的总体X有相同的分布。
② 独立性:
X
1
,
X
2
…
X
n
X_1,X_2… X_n
X1,X2…Xn是相互独立的随机变量。
样本是随机变量。
容量为n的样本可以看作n维随机向量
(
X
1
,
X
2
…
X
n
)
(X_1,X_2… X_n)
(X1,X2…Xn)。但是,一旦取定一组样本,得到的是n个具体的数
(
x
1
,
x
2
…
x
n
)
(x_1,x_2…x_n)
(x1,x2…xn),称为样本的一次观察值,简称样本值。
统计是从手中已有的资料–样本值,去推断总体的情况——总体分布F(x)的性质。
样本是联系二者的桥梁。
样本的联合分布
① 联合分布函数
F
(
x
1
,
x
2
…
x
n
)
=
∏
i
=
1
n
F
(
x
i
)
F(x_1,x_2…x_n)=\prod_{i=1}^nF(x_i)
F(x1,x2…xn)=i=1∏nF(xi)
② 联合密度函数 f ( x 1 , x 2 … x n ) = ∏ i = 1 n f ( x i ) f(x_1,x_2…x_n)=\prod_{i=1}^nf(x_i) f(x1,x2…xn)=i=1∏nf(xi)
③ 联合分布律 f ( x 1 , x 2 … x n ) = ∏ i = 1 n P ( X i = x i ) f(x_1,x_2…x_n)=\prod_{i=1}^nP(X_i=x_i) f(x1,x2…xn)=i=1∏nP(Xi=xi)
统计量
不含任何未知参数的样本的函数
g
(
X
1
,
X
2
…
X
n
)
g(X_1,X_2… X_n)
g(X1,X2…Xn)称为统计量。它是完全由样本决定的量。
2 几个常见统计量
样本均值
X
ˉ
=
1
n
∑
i
=
1
n
X
i
\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i
Xˉ=n1i=1∑nXi
样本方差
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2
S2=n−11i=1∑n(Xi−Xˉ)2
样本k阶原点矩
A
k
=
1
n
∑
i
=
1
n
X
i
k
A_k=\frac{1}{n}\sum_{i=1}^nX_i^k
Ak=n1i=1∑nXik
样本k阶中心矩
B
k
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
k
B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k
Bk=n1i=1∑n(Xi−Xˉ)k
性质
①
E
(
X
ˉ
)
=
E
(
X
)
=
μ
E(\bar{X})=E(X)=\mu
E(Xˉ)=E(X)=μ、
D
(
X
ˉ
)
=
σ
2
n
D(\bar{X})=\frac{\sigma^2}{n}
D(Xˉ)=nσ2
②
E
(
S
2
)
=
D
(
X
)
=
σ
2
E(S^2)=D(X)=\sigma^2
E(S2)=D(X)=σ2
3 抽样分布
统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,它的分布叫做统计量的“抽样分布”。
抽样分布包括精确抽样分布和渐近分布。
χ 2 \chi^2 χ2分布
定义
设
X
1
,
X
2
…
X
n
X_1,X_2… X_n
X1,X2…Xn相互独立, 都服从正态分布N(0,1),则称随机变量
χ
2
=
X
1
2
+
X
2
2
+
…
+
X
n
2
\chi^2=X_1^2+X_2^2+… +X_n^2
χ2=X12+X22+…+Xn2所服从的分布为自由度为n的
χ
2
\chi^2
χ2分布。记为
χ
2
∼
χ
2
(
n
)
\chi^2 \sim \chi^2(n)
χ2∼χ2(n)。
性质
① 可加性:
X
1
+
X
2
∼
χ
2
(
n
1
+
n
2
)
X_1+X_2\sim \chi^2(n_1+n_2)
X1+X2∼χ2(n1+n2)
② E(X)=n,D(X)=2n
③ n充分大时
X
−
n
2
n
\frac{X-n}{\sqrt{2n}}
2nX−n近似标准正态分布
密度函数
f
(
x
;
n
)
=
{
1
2
n
2
Γ
(
n
2
)
x
n
2
−
1
e
−
x
2
x
≥
0
0
x
<
0
f(x;n)=\begin{cases}\frac{1}{2^{\frac{n}{2}} \Gamma (\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}} & x ≥ 0\\0 & x < 0\end{cases}
f(x;n)={22nΓ(2n)1x2n−1e−2x0x≥0x<0
当n=2时,服从参数为 1 2 \frac{1}{2} 21的指数分布。
Γ
\Gamma
Γ函数
Γ
(
x
)
=
∫
0
∞
e
−
t
t
x
−
1
d
t
,
x
>
0
\Gamma(x)=\int_0^\infty e^{-t}t^{x-1}dt,x>0
Γ(x)=∫0∞e−ttx−1dt,x>0
{
Γ
(
n
+
1
)
=
n
!
Γ
(
1
2
)
=
π
Γ
(
1
)
=
1
Γ
(
x
+
1
)
=
x
Γ
(
x
)
\begin{cases} \Gamma(n+1)=n! \\ \Gamma(\frac{1}{2})=\sqrt{\pi}\\ \Gamma(1)=1\\ \Gamma(x+1)=x\Gamma(x) \end{cases}
⎩⎪⎪⎪⎨⎪⎪⎪⎧Γ(n+1)=n!Γ(21)=πΓ(1)=1Γ(x+1)=xΓ(x)
t分布
定义
X服从标准正态分布,Y服从
χ
2
(
n
)
\chi^2(n)
χ2(n),且X与Y相互独立。
T
=
X
Y
/
n
T=\frac{X}{\sqrt{Y/n}}
T=Y/nX 记为T~t(n)。
密度函数
f
(
x
;
n
)
=
Γ
(
n
+
1
2
)
Γ
(
n
2
)
n
π
(
1
+
x
2
n
)
n
+
1
2
f(x;n)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}}(1+\frac{x^2}{n})^{\frac{n+1}{2}}
f(x;n)=Γ(2n)nπΓ(2n+1)(1+nx2)2n+1
性质
① t分布的密度函数关于x=0对称。且
lim
∣
x
∣
→
∞
f
(
x
;
n
)
=
0
\lim_{|x| \rightarrow \infty}f(x;n)=0
∣x∣→∞limf(x;n)=0 ② 当n充分大时,其图形类似于标准正态分布密度函数的图形。
③ E(T)=0,D(T)=
n
n
−
2
,
n
>
2
\frac{n}{n-2},n>2
n−2n,n>2
F分布
定义
若X服从
χ
2
(
n
1
)
\chi^2(n_1)
χ2(n1),Y服从
χ
2
(
n
2
)
\chi^2(n_2)
χ2(n2)且X与Y相互独立。有
F
=
X
/
n
1
Y
/
n
2
F=\frac{X/n_1}{Y/n_2}
F=Y/n2X/n1 记为
F
∼
F
(
n
1
,
n
2
)
F \sim F(n_1,n_2)
F∼F(n1,n2)。
概率密度
f
(
x
;
n
1
,
n
2
)
=
{
Γ
(
n
1
+
n
2
2
)
Γ
(
n
1
2
)
Γ
(
n
2
2
)
(
n
1
n
2
)
(
n
1
n
2
x
)
n
1
2
−
1
(
1
+
n
1
n
2
x
)
−
n
1
+
n
2
2
x
≥
0
0
x
<
0
f(x;n_1,n_2)=\begin{cases} \frac{\Gamma(\frac{n_1+n_2}{2})}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})}(\frac{n_1}{n_2})(\frac{n_1}{n_2}x)^{\frac{n_1}{2}-1}(1+\frac{n_1}{n_2}x)^{-\frac{n_1+n_2}{2}} & x≥ 0\\0& x<0 \end{cases}
f(x;n1,n2)={Γ(2n1)Γ(2n2)Γ(2n1+n2)(n2n1)(n2n1x)2n1−1(1+n2n1x)−2n1+n20x≥0x<0
概率分布的上侧分位数
定义
设随机变量x的密度函数为f(x),对给定的α(0<α<1),称满足条件
P
(
X
≥
x
α
)
=
∫
x
α
∞
f
(
x
)
d
x
=
α
P(X≥x_\alpha)=\int_{x_\alpha}^\infty f(x)dx=\alpha
P(X≥xα)=∫xα∞f(x)dx=α 的实数
x
α
x_α
xα为X的上α分位点。
几个重要的抽样分布定理
定理一:样本均值的分布
X
ˉ
∼
N
(
μ
,
σ
2
n
)
\bar{X}\sim N(\mu,\frac{\sigma^2}{n})
Xˉ∼N(μ,nσ2)
X
ˉ
−
μ
σ
/
n
∼
N
(
0
,
1
)
\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)
σ/nXˉ−μ∼N(0,1)
定理二:样本方差的分布
(
n
−
1
)
S
2
σ
2
∼
χ
2
(
n
−
1
)
\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)
σ2(n−1)S2∼χ2(n−1)
X
ˉ
与
S
2
相
互
独
立
\bar{X}与S^2相互独立
Xˉ与S2相互独立
定理三
X
ˉ
−
μ
S
/
n
∼
t
(
n
−
1
)
\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)
S/nXˉ−μ∼t(n−1)
定理四:两总体样本均值差分布
定理五:两总体样本方差比的分布
性质
X
∼
F
(
n
1
,
n
2
)
X \sim F(n_1,n_2)
X∼F(n1,n2),则
1
X
∼
F
(
n
2
,
n
1
)
\frac{1}{X}\sim F(n_2,n_1)
X1∼F(n2,n1)
七、参数估计
在参数估计问题中,假定总体的分布形式已知,未知的仅仅是一个或几个参数。参数估计问题是利用从总体抽样得到的样本来估计总体的某些参数或者参数的函数。
参数估计问题的一般想法
设有一个总体X,总体的分布函数为F(x,θ),其中θ为未知参数(θ可以是向量),先从该总体抽样,得样本
X
1
,
X
2
.
.
.
X
n
X_1,X_2...X_n
X1,X2...Xn,要依据该样本对参数θ做出估计,或估计θ的某个函数g(θ)。这类问题称为参数估计。
参数估计分为点估计和区间估计。
点估计
估计未知参数的值。
区间估计
根据样本构造出适当的区间,使他以一定的概率包含未知参数或未知参数的已知函数的真值。
注意估计量和估计值的区别
1 矩估计
矩估计法是英国统计学家K.皮尔逊最早提出的。其基本思想是用样本矩估计总体矩。
设总体的k阶原点矩为
μ
k
=
E
(
X
k
)
\mu_k=E(X^k)
μk=E(Xk),它们一般均为θ的参数。
另外,由大数定律
lim
n
→
∞
P
{
∣
1
n
∑
i
=
1
n
X
i
k
−
μ
k
∣
<
ε
}
=
1
\lim_{n \rightarrow \infty}P\{|\frac{1}{n}\sum_{i=1}^nX_i^k-\mu_k|<\varepsilon\}=1
n→∞limP{∣n1i=1∑nXik−μk∣<ε}=1 所以,可以用样本的k阶原点矩作为总体的k阶原点矩的一个估计,即用
1
n
∑
i
=
1
n
X
i
k
\frac{1}{n}\sum_{i=1}^nX_i^k
n1∑i=1nXik估计
μ
k
\mu_k
μk,由此进一步估计未知参数θ。
由相应的样本矩去估计总体矩的估计方法称为矩估计法。
2 最大似然估计法
对于给定的样本值,选择θ的参数估计,使样本在样本值附近出现的可能性最大。
通过构造样本的似然函数。
最大似然估计具有不变性。
3 估计量的评选标准
无偏性
θ
^
\widehat{\theta}
θ
是总体参数θ的估计量,且
E
(
θ
^
)
=
θ
E(\widehat{\theta})=\theta
E(θ
)=θ。称
θ
^
\widehat{\theta}
θ
是θ的无偏估计量。
无偏估计量仅在多次重复使用时才显示其优越性。
常用结论
样本均值
X
ˉ
\bar{X}
Xˉ是总体期望E(X)的无偏估计量。
S
2
S^2
S2是D(X)的无偏估计量。
有效性
一个参数往往不止一个无偏估计,如果有多个无偏估计量,可以通过比较方差来判断谁更优,这就是有效性。方差小的更有效。
一致性(相合性)
若满足下式
lim
n
→
∞
P
{
∣
θ
^
−
θ
∣
≥
ε
}
=
0
\lim_{n \rightarrow \infty}P\{|\widehat{\theta}-\theta|≥\varepsilon\}=0
n→∞limP{∣θ
−θ∣≥ε}=0 则称
θ
^
\widehat{\theta}
θ
是θ的相合估计量。
一致性估计量仅在样本容量n足够大时,才显示其优越性。
常用结论
设总体的k阶矩存在,则样本的k阶矩是总体k阶矩的一致估计量。
4 区间估计
点估计仅仅给出了未知参数的一个近似值,它没有反映出这种估计的精度。区间估计正好弥补了点估计的这个这个不足之处。
要求
① 要求估计尽量可靠。
② 估计的精度要尽可能的高。
可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度。
置信区间
P
{
θ
^
L
≤
θ
≤
θ
^
U
}
=
1
−
α
P\{\widehat{\theta}_L≤\theta≤\widehat{\theta}_U\}=1-\alpha
P{θ
L≤θ≤θ
U}=1−α 则称随机区间
[
θ
^
L
,
θ
^
U
]
[\widehat{\theta}_L,\widehat{\theta}_U]
[θ
L,θ
U]为参数θ的置信度为1-α的置信区间,
θ
^
L
\widehat{\theta}_L
θ
L,
θ
^
U
\widehat{\theta}_U
θ
U分别称为置信度为1-α的双侧置信区间的置信下限和上限。置信度1-α也称置信水平。
构造置信区间
① 寻找样本的函数。称为枢轴量。它含有待估参数,不含其它未知参数,它的分布已知。(常由θ的点估计出发考虑)。
② 给定置信度1-α,定出两个常数c和d,使
P
(
c
<
g
(
X
1
,
X
2
.
.
.
X
n
,
θ
)
<
d
)
=
1
−
α
P(c<g(X_1,X_2...X_n,\theta)<d)=1-\alpha
P(c<g(X1,X2...Xn,θ)<d)=1−α ③ 由c和d解出置信区间的上下限。
八、假设检验
假设:关于总体分布的某个命题。
检验:根据来自总体的样本,运用数理统计方法,给出一个判断上述 命题正确与否的准则。
步骤
① 根据实际问题所关心的内容,建立
H
0
H_0
H0与
H
1
H_1
H1。
提出原假设和备择假设:
原假设:需要检验的假设。
备择假设:原假设对立面的全体或一部分。
② 选择合适的统计量T,确定拒绝域形式。
对给定显著性水平α,确定临界值,求出其对应的拒绝域。
拒绝域:检验统计量取某个区域C中的值时,拒绝
H
0
H_0
H0,C称为拒绝域。
③ 根据样本值计算,并作出相应的判断。
这里用到人们在实践中普遍采用的一个原则:实际推断原理:小概率事件在一次试验中基本上不会发生。
两类错误
由表格判断。
注
显著性水平α为犯第一类错误的最大概率。
当样本容量确定后,犯两类错误的概率不可能同时减少。
假设检验的指导思想是控制犯第一类错误的概率不超过α,然后,减少第二类错误的发生。
一般情况下,原假设
H
0
H_0
H0应当处于受保护的地位。