概率论与数理统计笔记(第二章 随机变量及其分布)
对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的《概率论与数理统计教程》,其他知识待后续书籍补充。
文章目录
第二章 随机变量及其分布
2.1 随机变量及其分布
2.1.1 随机变量的概念
定义 2.1.1
定义在样本空间 Ω \Omega Ω 上的实值函数 X = X ( ω ) X=X(\omega) X=X(ω) 称为随机变量, 常用大写字母 X , Y , Z X, Y, Z X,Y,Z 等表示随机变量, 其取值用小写字母 x , y , z x, y, z x,y,z 等表示. 假如一个随机变量仅可能取有限个或可列个值, 则称其为离散随机变量. 假如一个随机变量的可能取值充满数轴上的一个区间 ( a , b ) (a, b) (a,b), 则称其为连续随机变量,其中 a a a 可以是 − ∞ , b -\infty, b −∞,b 可以是 ∞ \infty ∞.
2.1.2 随机变量的分布函数
定义 2.1.2
设 X X X 是一个随机变量, 对任意实数 x x x, 称
F ( x ) = P ( X ⩽ x ) F(x)=P(X \leqslant x) F(x)=P(X⩽x)
为随机变量 X X X 的分布函数. 且称 X X X 服从 F ( x ) F(x) F(x), 记为 X ∼ F ( x ) X \sim F(x) X∼F(x). 有时也可用 F x ( x ) F_x(x) Fx(x) 以表明是 X X X 的分布函数 (把 X X X 写成 F F F 的下标).
定理 2.1.1 任一分布函数 F ( x ) F(x) F(x) 都具有如下三条基本性质:
(1) 单调性 F ( x ) F(x) F(x) 是定义在整个实数轴 ( − ∞ , ∞ ) (-\infty, \infty) (−∞,∞) 上的单调非减函数, 即对任意的 x 1 < x 2 x_1<x_2 x1<x2, 有 F ( x 1 ) ⩽ F ( x 2 ) F\left(x_1\right) \leqslant F\left(x_2\right) F(x1)⩽F(x2).
(2) 有界性 对任意的 x x x, 有 0 ⩽ F ( x ) ⩽ 1 0 \leqslant F(x) \leqslant 1 0⩽F(x)⩽1, 且
F ( − ∞ ) = lim x → − ∞ F ( x ) = 0 , F ( ∞ ) = lim x → ∞ F ( x ) = 1. \begin{gathered} F(-\infty)=\lim _{x \rightarrow-\infty} F(x)=0, \\ F(\infty)=\lim _{x \rightarrow \infty} F(x)=1 . \end{gathered} F(−∞)=x→−∞limF(x)=0,F(∞)=x→∞limF(x)=1.
(3) 右连续性 F ( x ) F(x) F(x) 是 x x x 的右连续函数, 即对任意的 x 0 x_0 x0, 有
lim x → x 0 + F ( x ) = F ( x 0 ) , \lim _{x \rightarrow x_0+} F(x)=F\left(x_0\right), x→x0+limF(x)=F(x0),
即
F ( x 0 + 0 ) = F ( x 0 ) . F\left(x_0+0\right)=F\left(x_0\right) . F(x0+0)=F(x0).
2.1.3 离散随机变量的概率分布列
对离散随机变量而言, 常用以下定义的分布列来表示其分布.
定义 2.1.3
设 X X X 是一个离散随机变量, 如果 X X X 的所有可能取值是 x 1 , x 2 x_1, x_2 x1,x2, ⋯ , x n , ⋯ \cdots, x_n, \cdots ⋯,xn,⋯, 则称 X X X 取 x i x_i xi 的概率
p i = p ( x i ) = P ( X = x i ) , i = 1 , 2 , ⋯ , n , ⋯ p_i=p\left(x_i\right)=P\left(X=x_i\right), i=1,2, \cdots, n, \cdots pi=p(xi)=P(X=xi),i=1,2,⋯,n,⋯
为 X X X 的概率分布列或简称为分布列, 记为 X ∼ { p i } X \sim\left\{p_i\right\} X∼{
pi},
分布列的基本性质
(1) 非负性 p ( x i ) ⩾ 0 , i = 1 , 2 , ⋯ p\left(x_i\right) \geqslant 0, i=1,2, \cdots p(xi)⩾0,i=1,2,⋯.
(2) 正则性 ∑ i = 1 ∞ p ( x i ) = 1 \sum_{i=1}^{\infty} p\left(x_i\right)=1 ∑i=1∞p(xi)=1.
以上两条基本性质是分布列必须具有的性质,也是判别某个数列是否能成为分布列的充要条件. 由离散随机变量 X X X 的分布列很容易写出 X X X 的分布函数
F ( x ) = ∑ x i ≤ x p ( x i ) . F(x)=\sum_{x_i \le x} p\left(x_i\right) . F(x)=xi≤x∑p(xi).
2.1.4 连续随机变量的概率密度函数
定义 2.1.4 2.1 .4 2.1.4
设随机变量 X X X 的分布函数为 F ( x ) F(x) F(x), 如果存在实数轴上的一个非负可积函数 p ( x ) p(x) p(x), 使得对任意实数 x x x 有
F ( x ) = ∫ − ∞ x p ( t ) d t , F(x)=\int_{-\infty}^x p(t) \mathrm{d}t, F(x)=∫−∞xp(t)dt,
则称 p ( x ) p(x) p(x) 为 X X X 的概率密度函数, 简称为密度函数, 或称密度.
密度函数的基本性质
(1)非负性 p ( x ) ⩾ 0 p(x) \geqslant 0 p(x)⩾0.
(2)正则性 ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 ∫−∞∞p(x)dx=1. (含有 p ( x ) p(x) p(x) 的可积性)
以上两条基本性质是密度函数必须具有的性质, 也是确定或判别某个函数是否成为密度函数的充要条件.
除了离散分布和连续分布之外, 还有既非离㪚又非连续的分布,在此不作过多介绍。
2.2 随机变量的数学期望
2.2.1 数学期望的概念
2.2.2 数学期望的定义
定义 2.2.1
设离散随机变量 X X X 的分布列为
p ( x i ) = P ( X = x i ) , i = 1 , 2 , ⋯ , n , ⋯ . p\left(x_i\right)=P\left(X=x_i\right), i=1,2, \cdots, n, \cdots . p(xi)=P(X=xi),i=1,2,⋯,n,⋯.
如果
∑ i = 1 ∞ ∣ x i ∣ p ( x i ) < ∞ , \sum_{i=1}^{\infty}\left|x_i\right| p\left(x_i\right)<\infty, i=1∑∞∣xi∣p(xi)<∞,
则称
E ( X ) = ∑ i = 1 ∞ x i p ( x i ) E(X)=\sum_{i=1}^{\infty} x_i p\left(x_i\right) E(X)=i=1∑∞xip(xi)
为随机变量 X X X 的数学期望, 或称为该分布的数学期望, 简称期望或均值. 若级数 ∑ k = 1 ∞ ∣ x i ∣ p ( x k ) \sum_{k=1}^{\infty}\left|x_i\right| p\left(x_k\right) ∑k=1∞∣xi∣p(xk) 不收敛, 则称 X X X 的数学期望不存在.
以上定义中, 要求级数绝对收敛的目的在于使数学期望唯一. 因为随机变量的取值可正可负, 取值次序可先可后, 由无穷级数的理论知道, 如果此无穷级数绝对收敛, 则可保证其和不受次序变动的影响. 由于有限项的和不受次序变动的影响,故取有限个可能值的随机变量的数学期望总是存在的.
定义 2.2.2
设连续随机变量 X X X 的密度函数为 p ( x ) p(x) p(x). 如果
∫ − ∞ ∞ ∣ x ∣ p ( x ) d x < ∞ , \int_{-\infty}^{\infty}|x| p(x) \mathrm{d} x<\infty, ∫−∞∞∣x∣p(x)dx<∞,
则称
E ( X ) = ∫ − ∞ ∞ x p ( x ) d x E(X)=\int_{-\infty}^{\infty} x p(x) \mathrm{d} x E(X)=∫−∞∞xp(x)dx
为 X X X 的数学期望, 或称为该分布 p ( x ) p(x) p(x) 的数学期望, 简称期望或均值. 若 ∫ − ∞ ∞ ∣ x ∣ p ( x ) d x \int_{-\infty}^{\infty}|x| p(x) \mathrm{d} x ∫−∞∞∣x∣p(x)dx 不收敛, 则称 X X X 的数学期望不存在.
2.2.3 数学期望的性质
定理 2.2.1 若随机变量 X X X 的分布用分布列 p ( x i ) p\left(x_i\right) p(xi) 或用密度函数 p ( x ) p(x) p(x) 表示, 则 X X X 的某一函数 g ( X ) g(X) g(X) 的数学期望为
E [ g ( X ) ] = { ∑ i g ( x i ) p ( x i ) , 在离散场合 ∫ − ∞ ∞ g ( x ) p ( x ) d x , 在连续场合 E[g(X)]=\left\{\begin{array}{l} \sum_i g\left(x_i\right) p\left(x_i\right), \text { 在离散场合 }\\ \int_{-\infty}^{\infty} g(x) p(x) \mathrm{d} x, \text { 在连续场合 } \end{array}\right. E[g(X)]={ ∑ig(xi)p(xi), 在离散场合 ∫−∞∞g(x)p(x)dx, 在连续场合
现基于这个定理来证明数学期望的几个常用性质, 以下均假定所涉及的数学期望是存在的.
性质 2.2.1 若 c c c 是常数, 则 E ( c ) = c E(c)=c E(c)=c.
性质 2.2.2 对任意常数 a a a, 有
E ( a X ) = a E ( X ) . E(a X)=a E(X) . E(aX)=aE(X).
性质 2.2.3 对任意的两个函数 g 1 ( x ) g_1(x) g1(x) 和 g 2 ( x ) g_2(x) g2(x), 有
E [ g 1 ( X ) ± g 2 ( X ) ] = E [ g 1 ( X ) ] ± E [ g 2 ( X ) ] . E\left[g_1(X) \pm g_2(X)\right]=E\left[g_1(X)\right] \pm E\left[g_2(X)\right] . E[g1(X)±g2(X)]=E[g1(X)]±E[g2(X)].
2.3 随机变量的方差与标准差
2.3.1 方差与标准差的定义
定义 2.3.1
若随机变量 X 2 X^2 X2 的数学期望 E ( X 2 ) E\left(X^2\right) E(X2) 存在, 则称偏差平方 ( X − (X- (X− E X ) 2 E X)^2 EX)2 的数学期望 E ( X − E X ) 2 E(X-E X)^2 E(X−EX)2 为随机变量 X X X (或相应分布) 的方差, 记为
Var ( X ) = E ( X − E ( X ) ) 2 = { ∑ i ( x i − E ( X ) ) 2 p ( x i ) , 在离散场合, ∫ − ∞ ∞ ( x − E ( X ) ) 2 p ( x ) d x , 在连续场合. \begin{aligned} \operatorname{Var}(X) &=E(X-E(X))^2 \\ &=\left\{\begin{array}{l} \sum_i\left(x_i-E(X)\right)^2 p\left(x_i\right), \text { 在离散场合, } \\ \int_{-\infty}^{\infty}(x-E(X))^2 p(x) \mathrm{d} x, \text { 在连续场合. } \end{array}\right. \end{aligned} Var(X)=E(X−E(X))2={
∑i(xi−E(X))2p(xi), 在离散场合, ∫−∞∞(x−E(X))2p(x)dx, 在连续场合.
称方差的正平方根 Var ( X ) \sqrt{\operatorname{Var}(X)} Var(X) 为随机变量 X X X (或相应分布)的标准差,记为 σ ( X ) \sigma(X) σ(X). 或 σ x \sigma_x σx.
2.3.2 方差的性质
以下均假定随机变量的方差是存在的.
性质 2.3.1 Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2 Var(X)=E(X2)−[E(X)]2.
性质 2.3.2 常数的方差为 0 , 即 Var ( c ) = 0 \operatorname{Var}(c)=0 Var(c)=0, 其中 c c c 是常数.
性质 2.3.3 若 a , b a, b a,b 是常数, 则 Var ( a X + b ) = a 2 Var ( X ) \operatorname{Var}(a X+b)=a^2 \operatorname{Var}(X) Var(aX+b)=a2Var(X).
2.3.3 切比雪夫不等式
定理 2.3.1(切比雪夫(Chebyshev, 1821-1894)不等式)
设随机变量 X X X 的数学期望和方差都存在, 则对任意常数 ε > 0 \varepsilon>0 ε>0, 有
P ( ∣ X − E X ∣ ⩾ ε ) ⩽ Var ( X ) ε 2 , P(|X-E X| \geqslant \varepsilon) \leqslant \frac{\operatorname{Var}(X)}{\varepsilon^2}, P(∣X−EX∣⩾ε)⩽ε2Var(X),
或
P ( ∣ X − E X ∣ < ε ) ⩾ 1 − Var ( X ) ε 2 . P(|X-E X|<\varepsilon) \geqslant 1-\frac{\operatorname{Var}(X)}{\varepsilon^2} . P(∣X−EX∣<ε)⩾1−ε2Var(X).
在概率论中, 事件 {| X − E ( X ) ∣ ⩾ ε } X-E(X)|\geqslant \varepsilon\} X−E(X)∣⩾ε} 称为大偏差, 其概率 P ( ∣ X − E ( X ) ∣ ⩾ ε ) P(|X-E(X)| \geqslant \varepsilon) P(∣X−E(X)∣⩾ε) 称为大偏差发生概率.
定理 2.3.2 若随机变量 X X X 的方差存在, 则 Var ( X ) = 0 \operatorname{Var}(X)=0 Var(X)=0 的充要条件是 X X X 几乎处处为某个常数 a, 即 P(X=a)=1.(利用切比雪夫不等式)
2.4 常用离散分布
2.4.1 二项分布
一、二项分布
如果记 X X X 为 n n n 重伯努利试验中成功 (记为事件 A A A ) 的次数, 则 X X X 的可能取值 为 0 , 1 , ⋯ , n 0,1, \cdots, n 0,1,⋯,n. 记 p p p 为每次试验中 A A A 发生的概率, 即 P ( A ) = p P(A)=p P(A)=p, 则 P ( A ˉ ) = 1 − p P(\bar{A})=1-p P(Aˉ)=1−p.
因为 n n n 重伯努利试验的基本结果可以记作
ω = ( ω 1 , ω 2 , ⋯ , ω n ) , \omega=\left(\omega_1, \omega_2, \cdots, \omega_n\right) \text {, } ω=(ω1,ω2,⋯,ωn)