第 1 章 概率统计常识
1.1 随机事件与概率
1.1.1 随机事件
1.1.1.1 随机事件
在一定条件下,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种,称这种现象为随机现象。使随机现象得以实现和对它观察的全过程称为随机试验(random experiment),记为E。随机试验满足以下条件:
- 可以在相同条件下重复进行;
- 结果有多种可能性,并且所有可能结果事先知道;
- 做一次试验究竟哪个结果出现,事先不能确定。
称随机试验的所有可能结果组成的集合为样本空间(sample space),记为 Ω \Omega Ω 。试验的每一个可能结果称为基本事件(Elementary event)或样本点(sample point),记为 ω \omega ω。
称 Ω \Omega Ω中满足一定条件的子集为随机事件(random event),用大写字母 A , B , C , ⋯ A, B, C, \cdots A,B,C,⋯表示。
在每次试验中, Ω \Omega Ω总是发生,为必然事件(certain event)。空集 ∅ \varnothing ∅不包含任何样本点,且每次试验中总不发生,为不可能事件(impossible event)。
1.1.1.2 随机事件间的关系
若事件A的发生必然导致事件B的发生,则称事件A包含于事件B,或事件B包含事件A,记为 A ⊂ B A\subset B A⊂B,亦称为事件的**包含(contain)**关系。
若 A ⊂ B A \subset B A⊂B,且 B ⊂ A B \subset A B⊂A,则称事件A和事件B等价(equivalent),记为 A = B A = B A=B。
若事件A与事件B至少有一个发生,则称事件A与B的和(union),记为 A ⋃ B A \bigcup B A⋃B。
若事件A发生而事件B不发生,则称事件A与事件B的差,记为 A − B A - B A−B。
若事件A与B不能同时发生,则称事件A与B为互斥事件(Mutually exclusive event)或不相容事件(Incompatiable event),记为 A B = ϕ AB = \phi AB=ϕ。
若A为随机事件,称事件不发生的事件为事件A的对立事件(Opposite event)/逆事件(Complementary event),记为 A ‾ \overline{A} A。事件A满足 A ⋃ A ‾ , A A ‾ = ϕ A \bigcup \overline{A}, A \overline{A} = \phi A⋃A,AA=ϕ。 → \rightarrow → 对立事件一定是互斥事件,但互斥事件不一定是对立事件。
1.1.1.3 随机事件的运算律
- 交换律 A ⋃ B = B ⋃ A , A B = B A A \bigcup B = B \bigcup A, AB = BA A⋃B=B⋃A,AB=BA
- 结合律 ( A ⋃ B ) ⋃ C = A ⋃ ( B ⋃ C ) , ( A ⋃ B ) ⋂ C = A ⋂ ( B ⋂ C ) (A \bigcup B) \bigcup C = A \bigcup (B \bigcup C), (A \bigcup B) \bigcap C = A \bigcap (B \bigcap C) (A⋃B)⋃C=A⋃(B⋃C),(A⋃B)⋂C=A⋂(B⋂C)
- 分配律 ( A ⋃ B ) C = ( A C ) ⋃ ( B C ) , A ⋃ ( B C ) = ( A ⋃ B ) ( A ⋃ C ) (A \bigcup B)C = (AC) \bigcup (BC), A \bigcup (BC) = (A \bigcup B)(A \bigcup C) (A⋃B)C=(AC)⋃(BC),A⋃(BC)=(A⋃B)(A⋃C)
- 德摩根律 A 1 ⋃ A 2 ‾ = A 1 ‾ ⋂ A 2 ‾ , A 1 ⋂ A 2 ‾ = A 1 ‾ ⋃ A 2 ‾ \overline{A_{1} \bigcup A_{2}} = \overline{A_{1}} \bigcap \overline{A_{2}}, \overline{A_{1} \bigcap A_{2}} = \overline{A_{1}} \bigcup \overline{A_{2}} A1⋃A2=A1⋂A2,A1⋂A2=A1⋃A2
- 减法 A − B = A B ‾ A - B = A\overline{B} A−B=AB
1.1.2 概率
定义1.1 设随机试验E的样本空间为 Ω \Omega Ω,KaTeX parse error: Undefined control sequence: \Digamma at position 1: \̲D̲i̲g̲a̲m̲m̲a̲是 Ω \Omega Ω的子集组成的集族,满足
- KaTeX parse error: Undefined control sequence: \Digamma at position 12: \Omega \in \̲D̲i̲g̲a̲m̲m̲a̲;
- 若KaTeX parse error: Undefined control sequence: \Digamma at position 7: A \in \̲D̲i̲g̲a̲m̲m̲a̲,则KaTeX parse error: Undefined control sequence: \Digamma at position 18: …verline{A} \in \̲D̲i̲g̲a̲m̲m̲a̲;(对逆运算封闭)
- 若$A_{i} \in \Digamma, i = 1,2,\cdots , 则 ,则 ,则\lim\limits_{i=1}^\infty A_i \in \Digamma$.(对可列并运算封闭)
则称KaTeX parse error: Undefined control sequence: \Digamma at position 1: \̲D̲i̲g̲a̲m̲m̲a̲为 Ω \Omega Ω的一个 σ − \sigma - σ−代数(事件体),KaTeX parse error: Undefined control sequence: \Digamma at position 1: \̲D̲i̲g̲a̲m̲m̲a̲中的集合称为事件,样本空间 Ω \Omega Ω和 σ \sigma σ代数的二元体KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲)称为可测空间。
定义1.2 随机试验E的样本空间为 Ω \Omega Ω,KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲)是可测空间,对于每个事件KaTeX parse error: Undefined control sequence: \Digamma at position 7: A \in \̲D̲i̲g̲a̲m̲m̲a̲,定义一个实数 P ( A ) P(A) P(A)与之对应,若函数 P ( ⋅ ) P(\cdot) P(⋅)满足条件:
- 对于每个事件A,均有 0 ≤ P ( A ) ≤ 1 0 \leq P(A) \leq 1 0≤P(A)≤1;
- P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1
- 若事件 A 1 , A 2 , ⋯ A_1, A_2, \cdots A1,A2,⋯两两互斥,即对于 i , j = 1 , 2 , ⋯ , i ≠ j , A i A j = ϕ i, j = 1, 2, \cdots, i \neq j, A_i A_j = \phi i,j=1,2,⋯,i=j,AiAj=ϕ均有 P ( A 1 ∪ A 2 ∪ ⋯ ) = P ( A 1 ) + P ( A 2 ) + ⋯ P(A_1 \cup A_2 \cup \cdots) = P(A_1) + P(A_2) + \cdots P(A1∪A2∪⋯)=P(A1)+P(A2)+⋯
则称 P ( A ) P(A) P(A)为事件 A A A的概率(probability),称KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲, P)为概率空间。
1.1.2.2 概率的性质
- 性质1: P ( ϕ ) = 0 P(\phi) = 0 P(ϕ)=0
- 性质2:若事件 A 1 , A 2 , ⋯ , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An两两互斥,则有 P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n = P ( A 1 ) + P ( A 2 ) + ⋯ + P ( A n ) P(A_1 \cup A_2 \cup \cdots \cup A_n = P(A_1) + P(A_2) + \cdots + P(A_n) P(A1∪A2∪⋯∪An=P(A1)+P(A2)+⋯+P(An),即互斥事件和的概率等于它们各自概率的和
- 性质3:对任一事件 A A A,均有 P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1−P(A)
- 性质4:对两个事件 A , B A, B A,B,若 A ⊂ B A \subset B A⊂B,则有 P ( B − A ) = P ( B ) − P ( A ) , P ( B ) ≥ P ( A ) P(B-A)=P(B)-P(A), P(B) \geq P(A) P(B−A)=P(B)−P(A),P(B)≥P(A)
- 性质5:(加法公式)对任意两个事件 A , B A, B A,B,有 P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A \cup B) = P(A) + P(B) - P(AB) P(A∪B)=P(A)+P(B)−P(AB)
1.1.2.3 古典概型
设随机事件E的样本空间中只有有限个样本点,即 Ω = { ω 1 , ω 2 , ⋯ , ω n } \Omega = \{\omega_1, \omega_2, \cdots, \omega_n\} Ω={ω1,ω2,⋯,ωn},其中n为样本点总数。每个样本点 ω i ( i = 1 , 2 , ⋯ , n ) \omega_i(i = 1, 2, \cdots, n) ωi(i=1,2,⋯,n)出现是等可能的,并且每次试验有且仅有一个样本点发生,则称这类现象为古典概型(classical probability)。若事件A包含m个样本点,则事件的概率定义为 P ( A ) = m n = 事 件 A 包 含 的 基 本 事 件 数 基 本 事 件 总 数 P(A)=\frac{m}{n}=\frac{事件A包含的基本事件数}{基本事件总数} P(A)=nm=基本事件总数事件A包含的基本事件数
1.1.2.4 几何概型
当随机试验的样本空间是某一可度量的区域,并且任意一点落在度量(长度、面积和体积)相同的子区域内是等可能的,则事件A的概率定义为 P ( A ) = S A S = 构 成 事 件 A 的 子 区 域 的 度 量 样 本 空 间 的 度 量 P(A)=\frac{S_A}{S}=\frac{构成事件A的子区域的度量}{样本空间的度量} P(A)=SSA=样本空间的度量构成事件A的子区域的度量
1.1.2.5 条件概率
设A, B是两个事件,且 P ( B ) > 0 P(B)>0 P(B)>0,称 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)为在事件B发生的条件下,事件A发生的条件概率(conditional probability)。
1.1.2.6 乘法公式、全概率公式、Bayes公式
乘法公式(multiplication formula) P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB) = P(A|B)P(B) = P(B|A)P(A) P(AB)=P(A∣B)P(B)=P(B∣A)P(A)
定义1.3如果事件组 B 1 , B 2 , ⋯ B_1, B_2, \cdots B1,B2,⋯满足
- B 1 , B 2 , ⋯ B_1, B_2, \cdots B1,B2,⋯两两互斥,即 B i ∩ B j = ϕ , i ≠ j , i , j = 1 , 2. ⋯ B_i \cap B_j = \phi, i \ne j, i,j = 1, 2. \cdots Bi∩Bj=ϕ,i=j,i,j=1,2.⋯,且 P ( B i ) > 0 , i = 1 , 2 , ⋯ P(B_i) > 0, i = 1, 2, \cdots P(Bi)>0,i=1,2,⋯。
- B 1 ∪ B 2 ∪ ⋯ = Ω B_1\cup B_2\cup \cdots = \Omega B1∪B2∪⋯=Ω,则称事件组 B 1 , B 2 , ⋯ B_1, B_2, \cdots B1,B2,⋯是样本空间 Ω \Omega Ω的一个划分。
设 B 1 , B 2 , ⋯ B_1, B_2, \cdots B1,B2,⋯是样本空间的一个划分,A为任一事件,则 P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum\limits_{i=1}^\infty P(B_i)P(A|B_i) P(A)=i=1∑∞P(Bi)P(A∣Bi)为全概率公式(formula of total probability)。
设 B 1 , B 2 , ⋯ B_1, B_2, \cdots B1,B2,⋯是样本空间的一个划分,则对任一事件 A ( P ( A ) > 0 ) A(P(A)>0) A(P(A)>0),有 P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 ∞ P ( B j ) P ( A ∣ B j ) , i = 1 , 2 , ⋯ P(B_i|A)=\frac{P(B_iA)}{P(A)}=\frac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^\infty P(B_j)P(A|B_j)}, i = 1, 2, \cdots P(Bi∣A)=P(A)P(BiA)=j=1∑∞P(Bj)P(A∣Bj)P(Bi)P(A∣Bi),i=1,2,⋯,为贝叶斯公式(Bayes formula,其中 P ( B i ) ( i = 1 , 2 , ⋯ ) P(B_i)(i = 1, 2, \cdots) P(Bi)(i=1,2,⋯)为先验概率, P ( B i ∣ A ) ( i = 1 , 2 , ⋯ ) P(B_i|A)(i = 1, 2, \cdots) P(Bi∣A)(i=1,2,⋯)为后验概率。
1.1.2.7 独立事件
如果两事件A,B的积事件发生的概率等于这两个事件的概率的乘积,即 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),则称事件A,B是相互独立的*(mutually independent)*。
性质若事件A, B相互独立,则 A A A与 B ‾ \overline{B} B, A ‾ \overline{A} A与 B B B, A ‾ \overline{A} A与 B ‾ \overline{B} B也相互独立。
1.1.2.8 n重Bernoulli 试验及其概率计算
如果一个随机试验只有两种可能结果 A , A ‾ A , \overline{A} A,A,并且 P ( A ) = p , P ( A ‾ ) = 1 − p = q P(A)=p, P(\overline{A})=1-p=q P(A)=p,P(A)=1−p=q,其中 0 < p < 1 0<p<1 0<p<1,则称此试验为伯努利试验(Bernoulli trial)。Bernoulli试验独立重复进行n次,称为n重Bernoulli试验。
1.2 随机变量及其分布
1.2.1 随机变量的定义
定义1.4 设E是随机试验, Ω \Omega Ω是样本空间,如果对于每一个 ω ∈ Ω \omega\in \Omega ω∈Ω,都有一个确定的实数 X ( ω ) X(\omega) X(ω)与之对应,若对于任意实数 x ∈ R x \in R x∈R,有 { ω : X ( ω ) < x } ∈ F \{\omega : X(\omega)<x\}\in F {ω:X(ω)<x}∈F,则称 Ω \Omega Ω上的单值实函数 X ( ω ) X(\omega) X(ω)为一个随机变量(random variable)。
1.2.2 随机变量的分布函数
定义1.5 设 X X X是一个随机变量,对任意的实数 x x x,令 F ( x ) = P { X ≤ x } , x ∈ ( − ∞ , + ∞ ) F(x)=P\{X \le x\}, x\in (-\infty, +\infty) F(x)=P{X≤x},x∈(−∞,+∞),则称 F ( x ) F(x) F(x)为随机变量 X X X的分布函数(distribution function),也称为概率累积函数(probability cumulative function)。
性质:
- 0 ≤ F ( x ) ≤ 1 0 \le F(x) \le 1 0≤F(x)≤1;
- F ( x ) F(x) F(x)是单调不减函数,即当 x 1 < x 2 x_1<x_2 x1<x2时, F ( x 1 ) ≤ F ( x 2 ) F(x_1)\le F(x_2) F(x1)≤F(x2);
- F ( − ∞ ) = lim x → − ∞ F ( x ) = 0 , F ( + ∞ ) = lim x → + ∞ F ( x ) = 1 F(-\infty) = \lim\limits_{x\to -\infty} F(x) = 0, F(+\infty) = \lim\limits_{x\to +\infty}F(x) = 1 F(−∞)=x→−∞limF(x)=0,F(+∞)=x→+∞limF(x)=1;
- F ( x ) F(x) F(x)是右连续函数,即 lim x → x 0 + F ( x ) = F ( x 0 ) , ∀ x 0 ∈ R \lim\limits_{x\to x_0^+} F(x) = F(x_0), \forall x_0 \in R x→x0+limF(x)=F(x0),∀x0∈R均成立;
- P { a < X ≤ b } = F ( b ) − F ( a ) P\{a<X\le b\} = F(b)-F(a) P{a<X≤b}=F(b)−F(a);
- P { X > a } = 1 − P { X ≤ a } = 1 − F ( a ) P\{X>a\}=1-P\{X \le a\}=1-F(a) P{X>a}=1−P{X≤a}=1−F(a)。
1.2.3 离散型随机变量
定义1.6 如果随机变量 X X X的全部可能取值只有有限多个或可列无穷多个,则称 X X X为离散型随机变量。
定义1.7 对于离散型随机变量 X X X可能取值为 x k x_k xk的概率为 P { X = x k } = p k , k = 1 , 2 , ⋯ P\{X=x_k\}=p_k, k=1, 2, \cdots P{X=xk}=pk,k=1,2,⋯,则称此为离散型随机变量 X X X的分布律。
性质:
- p k ≥ 0 , k = 1 , 2 , ⋯ p_k \ge 0, k = 1, 2, \cdots pk≥0,k=1,2,⋯;
- ∑ k = 1 ∞ p k = 1 \sum\limits_{k=1}^\infty p_k = 1 k=1∑∞pk=1。
分布函数 F ( x ) = P { X ≤ x } = ∑ x k ≤ x P { X = x k } = ∑ x k ≤ x p k F(x)=P\{X\le x\} = \sum\limits_{x_k\le x}P\{X=x_k\} = \sum\limits_{x_k\le x}p_k F(x)=P{X≤x}=xk≤x∑P{X=xk}=xk≤x∑pk
常见的离散型分布
1.2.3.1 两点分布(0-1分布)
P { X = k } = p k ( 1 − p ) 1 − k , k = 0 , 1 , ( 0 < p < 1 ) P\{X=k\}=p^k(1-p)^{1-k}, k=0, 1, (0<p<1) P{X=k}=pk(1−p)1−k,k=0,1,(0<p<1)
X ∼ B ( 1 , p ) ⟼ F ( x ) = { 0 , x < 0 1 − p , 0 ≤ x < 1 1 , x ≥ 1 X \sim B(1,p) \longmapsto F(x)=\begin{cases}0,&x<0\\1-p, & 0\le x <1\\1, & x\ge 1 \end{cases} X∼B(1,p)⟼F(x)=⎩⎪⎨⎪⎧0,1−p,1,x<00≤x<1x≥1
1.2.3.2 Bernoulli 分布(二项分布)
P { X = k } = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯ , n P\{X=k\}=C_n^k p^k(1-p)^{n-k}, k=0, 1, \cdots, n P{X=k}=Cnkpk(1−p)n−k,k=0,1,⋯,n
X ∼ B ( n , p ) ⟼ F ( x ) = ∑ k = 0 └ x ┘ C n k p k ( 1 − p ) n − k X \sim B(n,p) \longmapsto F(x)=\sum\limits_{k=0}^{\llcorner x \lrcorner}C_n^k p^k(1-p)^{n-k} X∼B(n,p)⟼F(x)=k=0∑└x┘Cnkpk(1−p)n−k
1.2.3.3 Poisson 分布
P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , ⋯ P\{X=k\}= \frac{\lambda^k e^{-\lambda}}{k!}, k=0, 1, 2, \cdots P{X=k}=k!λke−λ,k=0,1,2,⋯
X ∼ P ( λ ) ∥ ∣ X ∼ π ( λ ) ⟼ F ( x ) = ∑ k = 0 └ x ┘ λ k e − λ k ! X \sim P(\lambda) \|| X \sim \pi(\lambda) \longmapsto F(x)=\sum\limits_{k=0}^{\llcorner x \lrcorner} \frac{\lambda^k e^{-\lambda}}{k!} X∼P(λ)∥∣X∼π(λ)⟼F(x)=k=0∑└x┘k!λke−λ
定理1.1Poisson 定理:在Bernoulli 实验中,以 p n p_n pn代表事件 A A A在试验中出现的概率,它与试验总数 n n n有关,如 n p n → λ np_n \to \lambda npn→λ,则当 n → ∞ n \to \infty n→∞时,有 lim n → ∞ C n k p n k ( 1 − p ) n − k = λ k e − λ k ! \lim\limits_{n\to \infty}C_n^kp_n^k(1-p)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!} n→∞limCnkpnk(1−p)n−k=k!λke−λ。当 n n n很大且 p n p_n pn很小时,二项分布可以用Poisson分布来近似代替,即 C n k p n k ( 1 − p ) n − k = λ k e − λ k ! C_n^kp_n^k(1-p)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!} Cnkpnk(1−p)n−k=k!λke−λ,其中 λ = n p n \lambda = np_n λ=npn。
1.2.4 连续性随机变量
定义1.8 对于随机变量 X X X,如果存在一个定义在 ( − ∞ , + ∞ ) (-\infty, +\infty) (−∞,+∞)上的非负函数 f ( x ) f(x) f(x),使得对于任意实数 x x x,总有$F(x)=P{X \le x} = \int_{-\infty}^x f(t)dt, -\infty < x < +\infty , 则 ,则 ,则X 称 为 连 续 型 随 机 变 量 , 称为连续型随机变量, 称为连续型随机变量,f(x) 为 为 为X$的概率密度函数(probability density function,简称概率密度。
性质:
- ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty} f(x)dx=1 ∫−∞+∞f(x)dx=1;
- 对于任意的实数 a , b ( a < b ) a,b(a<b) a,b(a<b),都有 P { a < X ≤ b } = ∫ a b f ( x ) d x P\{a<X\le b\}=\int_{a}^bf(x)dx P{a<X≤b}=∫abf(x)dx;
- 若 f ( x ) f(x) f(x)在点 x x x处连续,则 f ( x ) = F ′ ( x ) f(x)=F^\prime(x) f(x)=F′(x);
- 对任意实数 a a a,总有 P { X = a } = 0 P\{X=a\}=0 P{X=a}=0.
常见的连续性分布
1.2.4.1 均匀分布(uniform distribution)
f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , o t h e r s f(x)=\begin{cases}\frac{1}{b-a},&a\le x \le b\\0,& others\end{cases} f(x)={b−a1,0,a≤x≤bothers
X ∼ U [ a , b ] ⟼ F ( x ) = { 0 , x < a x − a b − a , a ≤ x < b 1 , x ≥ b X\sim U[a,b] \longmapsto F(x)=\begin{cases}0,&x<a\\\frac{x-a}{b-a},&a\le x<b\\1,& x \ge b\end{cases} X∼U[a,b]⟼F(x)=⎩⎪⎨⎪⎧0,b−ax−a,1,x<aa≤x<bx≥b
1.2.4.2 指数分布(exponential distributin)
f ( x ) = { λ e − λ x , x ≥ 0 0 , x < 0 f(x)=\begin{cases}\lambda e^{-\lambda x},&x \ge 0\\0,& x < 0\end{cases} f(x)={λe−λx,0,x≥0x<0
X 服 从 参 数 为 λ 的 指 数 分 布 F ( x ) = { 1 − e − λ x , x ≥ 0 0 , x < 0 X服从参数为\lambda的指数分布 F(x)=\begin{cases}1-e^{-\lambda x},&x \ge 0\\0,& x < 0\end{cases} X服从参数为λ的指数分布F(x)={1−e−λx,0,x≥0x<0
1.2.4.3 正态分布(Gauss/normal distribution)
f ( x ) = 1 2 π σ e x p { − ( x − μ ) 2 2 σ 2 } , − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi\sigma}}exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}, -\infty<x<+\infty f(x)=2πσ1exp{−2σ2(x−μ)2},−∞<x<+∞
X ∼ N ( μ , σ 2 ) ⟼ F ( x ) = ∫ − ∞ x 1 2 π σ e − ( t − μ ) 2 2 σ 2 d t = Φ ( x − μ σ ) , − ∞ < x < + ∞ X\sim N(\mu, \sigma^2) \longmapsto F(x)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi\sigma}}^{e^{-\frac{(t-\mu)^2}{2\sigma^2}}}dt=\Phi(\frac{x-\mu}{\sigma}), -\infty<x<+\infty X∼N(μ,σ2)⟼F(x)=∫−∞x2πσ1e−2σ2(t−μ)2dt=Φ(σx−μ),−∞<x<+∞
1.2.4.4 随机变量的函数的分布
若随机变量 X X X具有概率密度函数 f X ( x ) , − ∞ < x < + ∞ f_X(x), -\infty<x<+\infty fX(x),−∞<x<+∞,又设 g ( x ) g(x) g(x)处处可导且 g ′ ( x ) g^\prime(x) g′(x)不变号,则 Y = g ( X ) Y=g(X) Y=g(X)是连续型随机变量,其概率密度函数为 f Y ( y ) = { f X ( h ( y ) ) ∣ h ′ ( y ) ∣ , α < y < β 0 , o t h e r s f_Y(y)=\begin{cases} f_X(h(y))|h^\prime(y)|,& \alpha<y<\beta\\0,&others \end{cases} fY(y)={fX(h(y))∣h′(y)∣,0,α<y<βothers,其中 α = m i n { g ( − ∞ ) , g ( ∞ ) } , β = m a x { g ( − ∞ ) , g ( ∞ ) } \alpha = min\{g(-\infty),g(\infty)\}, \beta = max\{g(-\infty),g(\infty)\} α=min{g(−∞),g(∞)},β=max{g(−∞),g(∞)}, x = h ( y ) x=h(y) x=h(y)为 y = g ( x ) y=g(x) y=g(x)的反函数。
1.2.5 随机向量
定义1.9 如果 X X X和 Y Y Y是定义在同一概率空间KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲, P)上的两个随机变量, ( X , Y ) (X, Y) (X,Y)称为二维随机向量(random vector),并称 X X X和 Y Y Y是二维随机向量的两个分量。
定义1.10 设 Ω \Omega Ω为样本空间, X 1 = X 1 ( ω ) , X 2 = X 2 ( ω ) , ⋯ . X n = X n ( ω ) X_1 = X_1(\omega), X_2 = X_2(\omega), \cdots. X_n = X_n(\omega) X1=X1(ω),X2=X2(ω),⋯.Xn=Xn(ω)是 Ω \Omega Ω上的 n n n个随机变量,则由它们构成的 n n n维向量 ( X 1 , X 2 , ⋯ , X n ) (X_1, X_2, \cdots, X_n) (X1,X2,⋯,Xn)称为 n n n维随机向量(n-dimensional random vector),称 X i X_i Xi为 X X X的第 i i i个分量。
定义1.11 设 ( X , Y ) (X,Y) (X,Y)是定义在KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲, P)上的随机向量,对任意的 ( x , y ) ∈ R 2 (x,y)\in R^2 (x,y)∈R2,二元函数 F ( x , y ) = P { ω : X ( ω ) ≤ x , y ( ω ) ≤ y } F(x,y) = P\{\omega: X(\omega)\le x, y(\omega)\le y \} F(x,y)=P{ω:X(ω)≤x,y(ω)≤y}称为 ( X , Y ) (X,Y) (X,Y)的联合分布函数(joint distribution function),其中 { X ≤ x , Y ≤ y } \{X\le x, Y\le y \} {X≤x,Y≤y}表示事件 { X ≤ x } \{X\le x\} {X≤x}与事件 { Y ≤ y } \{Y\le y\} {Y≤y}的积事件。
分布函数性质:
- 对于任意固定的 y y y,当 x 2 > x 1 x_2>x_1 x2>x1时, F ( x 2 , y ) ≥ F ( x 1 , y ) F(x_2,y)\ge F(x_1,y) F(x2,y)≥F(x1,y)。对于任意固定的 x x x,当 y 2 ≥ y 1 y_2\ge y_1 y2≥y1时, F ( x , y 2 ) ≥ F ( x , y 1 ) F(x,y_2)\ge F(x,y_1) F(x,y2)≥F(x,y1)即 F ( x , y ) F(x,y) F(x,y)对每个自变量是单调不减的。
- 0 ≤ F ( x , y ) ≤ 1 0\le F(x,y) \le 1 0≤F(x,y)≤1,且对于任意固定的 y y y, F ( − ∞ , y ) = 0 F(-\infty, y)=0 F(−∞,y)=0。对于任意固定的 x x x, F ( x , − ∞ ) = 0 , F ( − ∞ , − ∞ ) = 0 , F ( + ∞ , + ∞ ) = 1 F(x, -\infty)=0, F(-\infty, -\infty)=0, F(+\infty, +\infty)=1 F(x,−∞)=0,F(−∞,−∞)=0,F(+∞,+∞)=1。
- F ( x , y ) = F ( x + 0 , y ) , F ( x , y ) = F ( x , y + 0 ) F(x,y)=F(x+0,y), F(x,y)=F(x,y+0) F(x,y)=F(x+0,y),F(x,y)=F(x,y+0),即 F ( x , y ) F(x,y) F(x,y)关于 x x x右连续,也关于 y y y右连续。
- 对于任意 ( x 1 , y 1 ) , ( x 2 , y 2 ) , x 1 < x 2 , y 1 < y 2 (x_1,y_1), (x_2,y_2), x_1<x_2, y_1<y_2 (x1,y1),(x2,y2),x1<x2,y1<y2,下述不等式 F ( x 2 , y 2 ) − F ( x 2 , y 1 ) − F ( x 1 , y 2 ) + F ( x 1 , y 1 ) ≥ 0 F(x_2,y_2) - F(x_2,y_1) - F(x_1, y_2) + F(x_1,y_1) \ge 0 F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)≥0成立。
- ⇒ \Rightarrow ⇒随机点 ( X , Y ) (X,Y) (X,Y)落在矩形域 { x 1 < x ≤ x 2 , y 1 < y ≤ y 2 } \{x_1<x\le x_2, y_1<y\le y_2 \} {x1<x≤x2,y1<y≤y2}内的概率为 P { x 1 < x ≤ x 2 , y 1 < y ≤ y 2 } = F ( x 2 , y 2 ) − F ( x 2 , y 1 ) − F ( x 1 , y 2 ) + F ( x 1 , y 1 ) P\{x_1<x\le x_2, y_1<y\le y_2 \} = F(x_2,y_2) - F(x_2,y_1) - F(x_1, y_2) + F(x_1,y_1) P{x1<x≤x2,y1<y≤y2}=F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)
定义1.12 如果二维随机向量 ( X , Y ) (X,Y) (X,Y)的每个分量都是离散型随机变量,则称 ( X , Y ) (X,Y) (X,Y)是二维离散型随机向量。
定义1.13 设二维离散型随机向量 ( X , Y ) (X,Y) (X,Y)所有的可能取值为 ( x i , y j ) , i = 1 , 2 , ⋯ , j = 1 , 2 , ⋯ (x_i,y_j), i=1,2,\cdots,j=1,2,\cdots (xi,yj),i=1,2,⋯,j=1,2,⋯的概率为: P { X = x i , Y = y j } = p i j , i , j = 1 , 2 , ⋯ P\{X=x_i,Y=y_j\}=p_{ij}, i,j=1,2,\cdots P{X=xi,Y=yj}=pij,i,j=1,2,⋯,则称其为离散型随机向量 ( X , Y ) (X,Y) (X,Y)的分布律(联合分布律) ⟺ \iff ⟺(1) p i j ≥ 0 , i , j = 1 , 2 , ⋯ p_{ij}\ge 0, i,j=1,2,\cdots pij≥0,i,j=1,2,⋯ ; (2) ∑ i ∑ j p i j = 1 \sum\limits_i\sum\limits_jp_{ij}=1 i∑j∑pij=1
离散型随机向量 ( X , Y ) (X,Y) (X,Y)的分布函数为: F ( x , y ) = ∑ x i ≤ x , y i ≤ y p i j , ∀ x , y ∈ R F(x,y)=\sum\limits_{x_i\le x,y_i\le y}p_{ij}, \forall x,y \in R F(x,y)=xi≤x,yi≤y∑pij,∀x,y∈R
定义1.14 如果对于二维随机向量 ( X , Y ) (X,Y) (X,Y)的分布函数 F ( x , y ) F(x,y) F(x,y),存在非负的函数 f ( x , y ) f(x,y) f(x,y),使对于任意的 ( x , y ) (x,y) (x,y),有 F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x,y)=\int_{-\infty}^{y}\int_{-\infty}^{x} f(u,v)dudv F(x,y)=∫−∞y∫−∞xf(u,v)dudv,则称 ( X , Y ) (X,Y) (X,Y)是连续型的二维随机向量,函数 f ( x , y ) f(x,y) f(x,y)称为二维随机向量 ( X , Y ) (X,Y) (X,Y)的概率密度函数。
性质
- F ( x , y ) ≥ 0 , ∀ x , y ∈ R F(x,y)\ge 0, \forall x,y \in R F(x,y)≥0,∀x,y∈R
- ∫ − ∞ y ∫ − ∞ x f ( x , y ) d x d y = F ( + ∞ , + ∞ ) = 1 \int_{-\infty}^{y}\int_{-\infty}^{x} f(x,y)dxdy = F(+\infty,+\infty)=1 ∫−∞y∫−∞xf(x,y)dxdy=F(+∞,+∞)=1
- 在 f ( x , y ) f(x,y) f(x,y) 的连续点处有 ∂ 2 F ( x , y ) ∂ x ∂ y = f ( x , y ) \frac{\partial^2F(x,y)}{\partial x\partial y}=f(x,y) ∂x∂y∂2F(x,y)=f(x,y);
- 随机点 ( X , Y ) (X,Y) (X,Y)落在平面区域 G G G内的概率为 P { ( X , Y ) ∈ G } = ∬ G f ( x , y ) d x d y P\{(X,Y)\in G\}=\iint\limits_G f(x,y)dxdy P{(X,Y)∈G}=G∬f(x,y)dxdy
1.2.5.1 边缘分布
X , Y X,Y X,Y的**边缘分布函数(marginal distribution)**分别是:
F X ( x ) = P { X ≤ x } = P { X ≤ x , Y ≤ + ∞ } = F ( x , + ∞ ) F_X(x)=P\{X\le x\}=P\{X\le x, Y\le +\infty\}=F(x,+\infty) FX(x)=P{X≤x}=P{X≤x,Y≤+∞}=F(x,+∞)
F Y ( y ) = P { Y ≤ y } = P { X ≤ + ∞ , Y ≤ y } = F ( + ∞ , y ) F_Y(y)=P\{Y\le y\}=P\{X\le +\infty, Y\le y\}=F(+\infty, y) FY(y)=P{Y≤y}=P{X≤+∞,Y≤y}=F(+∞,y)
1.2.5.2 二维均匀分布
若 ( X , Y ) (X,Y) (X,Y) 具有如下概率密度函数 f ( x , y ) = { 1 A , ( x , y ) ∈ D 0 , o t h e r s f(x,y)=\begin{cases}\frac{1}{A},&(x,y)\in D\\0,&others\end{cases} f(x,y)={A1,0,(x,y)∈Dothers,其中 A A A为平面区域 D D D的面积值,则称此二维连续型随机向量 ( X , Y ) (X,Y) (X,Y)在区域内服从二维均匀分布。
1.2.5.3 二维正态分布
若 ( X , Y ) (X,Y) (X,Y) 具有如下概率密度函数
f ( x , y ) = 1 2 π σ 1 σ 2 1 − ρ 2 ⋅ e x p { − 1 2 ( 1 − ρ 2 ) [ ( x − μ 1 ) 2 σ 1 2 − 2 ρ ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 + y − μ 2 ) 2 σ 2 2 ] } , − ∞ < x < + ∞ , − ∞ < y < + ∞ f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \centerdot exp\big\{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{y-\mu_2)^2}{\sigma_2^2}] \big\},-\infty<x<+\infty,-\infty<y<+\infty f(x,y)=2πσ1σ21−ρ21⋅exp{−2(1−ρ2)1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22y−μ2)2]},−∞<x<+∞,−∞<y<+∞
其中 μ 1 , μ 2 , σ 1 > 0 , σ 2 > 0 , ∣ ρ ∣ < 1 \mu_1,\mu_2,\sigma_1>0,\sigma_2>0,\mid\rho\mid<1 μ1,μ2,σ1>0,σ2>0,∣ρ∣<1为实数,则称此二维连续型随机向量 ( X , Y ) (X,Y) (X,Y)服从参数为 μ 1 , μ 2 , σ 1 , σ 2 , ρ \mu_1,\mu_2,\sigma_1,\sigma_2,\rho μ1,μ2,σ1,σ2,ρ的二维正态分布,记作 ( X , Y ) ∼ N ( μ 1 , μ 2 , σ 1 2 , σ 2 2 ) (X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2) (X,Y)∼N(μ1,μ2,σ12,σ22),同时称 ( X , Y ) (X,Y) (X,Y)为二维正态随机向量。
1.3 随机变量的数字特征
1.3.1 数学期望 E ( X ) E(X) E(X)
定义1.15 设离散型随机变量 X X X的分布律为 P { X = x i } = p i , i = 1 , 2 , ⋯ P\{X=x_i \}=p_i, i=1,2,\cdots P{X=xi}=pi,i=1,2,⋯,若级数 ∑ i ∣ x i ∣ p i \sum\limits_i \mid x_i\mid p_i i∑∣xi∣pi收敛,则称级数 ∑ i x i p i \sum\limits_i x_i p_i i∑xipi的和为随机变量 X X X的数学期望(mathematical expectation),记为 E ( X ) E(X) E(X),即 E ( X ) = ∑ i x i p i E(X)=\sum\limits_i x_i p_i E(X)=i∑xipi
设连续型随机变量 X X X的概率密度函数为 f ( x ) f(x) f(x),若积分 ∫ − ∞ + ∞ ∣ x ∣ f ( x ) d x \int_{-\infty}^{+\infty} \mid x \mid f(x)dx ∫−∞+∞∣x∣f(x)dx收敛,则称积分 ∫ − ∞ + ∞ x f ( x ) d x \int_{-\infty}^{+\infty} x f(x)dx ∫−∞+∞xf(x)dx的值为随机变量 X X X的数学期望,记为 E ( X ) E(X) E(X),即 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty} x f(x)dx E(X)=∫−∞+∞xf(x)dx。 E ( X ) E(X) E(X)又称为均值(mean)。
性质
- 若 c c c是常数,则 E ( c ) = c E(c)=c E(c)=c;
- E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY)=aE(X)+bE(Y) E(aX+bY)=aE(X)+bE(Y) ,其中 a , b a,b a,b为任意常数;
- 若 X , Y X,Y X,Y相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)。
1.3.2 方差 V a r ( X ) Var(X) Var(X)
定义1.16 设 X X X为随机变量,如果 E { [ X − E ( x ) ] 2 } E\{[X-E(x)]^2 \} E{[X−E(x)]2}存在,则称 E { [ X − E ( x ) ] 2 } E\{[X-E(x)]^2 \} E{[X−E(x)]2}为 X X X的方差(variance),记为 V a r ( X ) Var(X) Var(X),即 V a r ( X ) = E { [ X − E ( x ) ] 2 } Var(X)=E\{[X-E(x)]^2 \} Var(X)=E{[X−E(x)]2},并称 V a r ( X ) \sqrt{Var(X)} Var(X)为的标准差(standard deviation)或均方差(root mean square)。
性质:
- 若 c c c是常数,则 V a r ( X ) = c Var(X)=c Var(X)=c;
- V a r ( a X + b ) = a 2 V a r ( X ) Var(aX+b)=a^2Var(X) Var(aX+b)=a2Var(X) ,其中 a , b a,b a,b为任意常数;
- 若 X , Y X,Y X,Y相互独立,则 V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y)=Var(X)+Var(Y) Var(X+Y)=Var(X)+Var(Y)。
⟶ V a r ( X ) = E ( X 2 ) − [ E ( X ) ] 2 \longrightarrow Var(X)=E(X^2)-[E(X)]^2 ⟶Var(X)=E(X2)−[E(X)]2
X ~ B(1, p), E(X)=p, Var(X)=p(1-p)
X ~ B(n, p), E(X)=np, Var(X)=np(1-p)
X ~ P( λ \lambda λ), E(X)= λ \lambda λ, Var(X)= λ \lambda λ
X ~ U[a, b], E(X)= a + b 2 \frac{a+b}{2} 2a+b, Var(X)= ( a + b ) 2 12 \frac{(a+b)^2}{12} 12(a+b)2
X ~ 指数分布, E(X)= 1 λ \frac{1}{\lambda} λ1, Var(X)= 1 λ 2 \frac{1}{\lambda^2} λ21
X ~ N( μ , σ 2 \mu , \sigma^2 μ,σ2), E(X)= μ \mu μ, Var(X)= σ 2 \sigma^2 σ2
1.3.3 协方差 C o v ( X , Y ) Cov(X,Y) Cov(X,Y)和相关系数 ρ ( X , Y ) \rho(X,Y) ρ(X,Y)
1.3.3.1 协方差
设 X , Y X,Y X,Y为两个随机变量,称 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } E\{[X-E(X)][Y-E(Y)] \} E{[X−E(X)][Y−E(Y)]}为 X , Y X,Y X,Y的协方差(covariance),记为 C o v ( X , Y ) Cov(X,Y) Cov(X,Y),即 C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\{[X-E(X)][Y-E(Y)] \} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
性质:
- C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X);
- C o v ( a X + b , c Y + d ) = a c C o v ( X , Y ) Cov(aX+b,cY+d)=acCov(X,Y) Cov(aX+b,cY+d)=acCov(X,Y) ,其中 a , b , c , d a,b,c,d a,b,c,d为任意常数;
- C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y);
- C o v ( X . Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X.Y)=E(XY)-E(X)E(Y) Cov(X.Y)=E(XY)−E(X)E(Y) ,特别地,当 X X X和 Y Y Y相互独立时,有 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0;
- ∣ C o v ( X , Y ) ∣ ≤ V a r ( X ) V a r ( Y ) \mid Cov(X,Y)\mid \le \sqrt{Var(X)}\sqrt{Var(Y)} ∣Cov(X,Y)∣≤Var(X)Var(Y);
- C o v ( X , X ) = V a r ( X ) Cov(X,X)=Var(X) Cov(X,X)=Var(X)。
1.3.3.2 相关系数
当 V a r ( X ) > 0 Var(X)>0 Var(X)>0, V a r ( Y ) > 0 Var(Y)>0 Var(Y)>0时,称 ρ ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} ρ(X,Y)=Var(X)Var(Y)Cov(X,Y)为 X X X与 Y Y Y的相关系数(coefficient of correlation),它是无量纲的量,其基本性质为:
- ∣ ρ ( X , Y ) ∣ ≤ 1 \mid\rho(X,Y)\mid\le1 ∣ρ(X,Y)∣≤1 ; ∣ ρ ( X , Y ) ∣ = 1 \mid\rho(X,Y)\mid=1 ∣ρ(X,Y)∣=1的充要条件为 X X X与 Y Y Y之间有线性关系,即存在常数 a , b ( a ≠ 0 ) a,b(a\ne 0) a,b(a=0),使得 P { Y = a X + b } = 1 P\{Y=aX+b\}=1 P{Y=aX+b}=1。具体地,当 a > 0 a>0 a>0时,对应 ρ ( X , Y ) = 1 \rho(X,Y)=1 ρ(X,Y)=1;当 a < 0 a<0 a<0时,对应 ρ ( X , Y ) = − 1 \rho(X,Y)=-1 ρ(X,Y)=−1。
- 若 X X X与 Y Y Y相互独立且 V a r ( X ) , V a r ( Y ) Var(X),Var(Y) Var(X),Var(Y)存在,则 ρ ( X , Y ) = 0 \rho(X,Y)=0 ρ(X,Y)=0;特别的,当 X X X与 Y Y Y均为正态分布时, X X X与 Y Y Y相互独立的充要条件为 ρ ( X , Y ) = 0 \rho(X,Y)=0 ρ(X,Y)=0。
1.3.4 矩与协方差矩阵
1.3.4.1 矩
设随机变量 X X X有分布函数 F ( x ) F(x) F(x),对任意给定的正整数 k k k,若 E ( ∣ X ∣ k ) E(\mid X\mid^k) E(∣X∣k)存在,则称 α k = E ( X k ) = ∫ − ∞ + ∞ x k d F ( x ) \alpha_k=E(X^k)=\int_{-\infty}^{+\infty}x^kdF(x) αk=E(Xk)=∫−∞+∞xkdF(x)为 X X X的 k k k阶原点矩(moment about origin)。对于 k > 1 k>1 k>1,若 E ( ∣ X ∣ k ) E(\mid X\mid^k) E(∣X∣k)存在,则称 μ k = E ( [ X − E ( X ) ] k ) = ∫ − ∞ + ∞ ) ( x − E ( X ) ) k d F ( x ) \mu_k=E([X-E(X)]^k)=\int_{-\infty}^{+\infty})(x-E(X))^kdF(x) μk=E([X−E(X)]k)=∫−∞+∞)(x−E(X))kdF(x)为 X X X的 k k k阶中心矩(moment about centre)。
矩是广泛应用的一类数字特征,均值和方差分别是一阶原点矩和二阶中心矩。
设分布函数 F ( x ) F(x) F(x)有中心矩 μ 2 = E ( X − E ( X ) ) 2 , μ 3 = E ( X − E ( X ) ) 3 \mu_2=E(X-E(X))^2,\mu_3=E(X-E(X))^3 μ2=E(X−E(X))2,μ3=E(X−E(X))3,则 C s = μ 3 / μ 2 3 2 C_s=\mu_3/\mu_2^{\frac{3}{2}} Cs=μ3/μ223称为偏度系数(coefficient of skewness)。
偏度系数是一个无量纲的量,它刻划分布函数的对称性.当 C s > 0 C_s>0 Cs>0时, F ( x ) F(x) F(x)所表示的概率分布偏向均值的右侧,反之则偏向左侧.
设分布函数 F ( x ) F(x) F(x)有中心矩 μ 2 = E ( X − E ( X ) ) 2 , μ 4 = E ( X − E ( X ) ) 4 \mu_2=E(X-E(X))^2,\mu_4=E(X-E(X))^4 μ2=E(X−E(X))2,μ4=E(X−E(X))4,则 C s = μ 4 / μ 2 4 2 − 3 C_s=\mu_4/\mu_2^{\frac{4}{2}}-3 Cs=μ4/μ224−3称为峰度系数(kurtosis)。
峰度系数是一个无量纲的量,它刻划不同类型的分布的集中和分散程度。
设随机变量 X X X有均值 μ \mu μ和方差 σ \sigma σ,则称 X ∗ = ( X − μ ) / σ X^*=(X-\mu)/\sigma X∗=(X−μ)/σ为标准化随机变量。
1.3.4.2 协方差矩阵
设
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
,
Y
=
(
Y
1
,
Y
2
,
⋯
,
Y
m
)
X=(X_1,X_2,\cdots,X_n),Y =(Y_1,Y_2,\cdots,Y_m)
X=(X1,X2,⋯,Xn),Y=(Y1,Y2,⋯,Ym)为两个随机变量,则称$
Cov(X, Y)=(\sigma_{ij})_{n\times m}$为
X
X
X与
Y
Y
Y的协方差阵(covariance matrix),其中
σ
i
j
=
C
o
v
(
X
i
,
Y
j
)
,
i
=
1
,
2
,
⋯
,
n
,
j
=
1
,
2
,
⋯
,
m
\sigma_{ij} = Cov(X_i, Y_j),i = 1,2,\cdots,n,j = 1,2,\cdots, m
σij=Cov(Xi,Yj),i=1,2,⋯,n,j=1,2,⋯,m 。
性质:
- C o v ( X , Y ) = C o v ( Y , X ) T Cov(X, Y) = Cov(Y,X)^T Cov(X,Y)=Cov(Y,X)T ;
- C o v ( A X + b , Y ) = A C o v ( X , Y ) Cov(AX + b,Y)= ACov(X, Y) Cov(AX+b,Y)=ACov(X,Y) ,其中 A A A是矩阵, b b b是向量;
- C o v ( X + Y , Z ) = C o v ( X , Z ) + C o v ( Y , Z ) Cov(X+Y,Z) = Cov(X,Z) +Cov(Y , Z) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) ;
设
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
X=(X_1,X_2,\cdots,X_n)
X=(X1,X2,⋯,Xn)为随机变量,则称
V
a
r
(
X
)
=
C
o
v
(
X
,
X
)
=
(
σ
i
j
)
n
×
n
Var(X) = Cov(X,X)=(\sigma_{ij})_{n\times n}
Var(X)=Cov(X,X)=(σij)n×n为
X
X
X的方差矩阵(variance matrix),也称为方差–协方差矩阵(variance-covariance matrix),其
σ
i
j
=
C
o
v
(
X
i
,
X
j
)
,
i
,
j
=
1
,
2
,
⋯
,
n
\sigma_{ij}= Cov(X_i,X_j),i,j = 1,2,\cdots, n
σij=Cov(Xi,Xj),i,j=1,2,⋯,n。
性质:
- V a r ( X ) Var(X) Var(X)半正定,即 ∀ a ∈ R n \forall a\in R^n ∀a∈Rn,有 a T V a r ( X ) a ≥ 0 a^TVar(X)a \ge 0 aTVar(X)a≥0 ;
- ∀ a ∈ R n \forall a \in R^n ∀a∈Rn,有 V a r ( a T X ) = a T V a r ( X ) a Var(a^TX) = a^T Var(X)a Var(aTX)=aTVar(X)a;
- ∀ A ∈ R k × n \forall A∈R^{k\times n} ∀A∈Rk×n,有 V a r ( A X ) = A V a r ( X ) A T Var(AX) = AVar(X)A^T Var(AX)=AVar(X)AT;
- V a r ( X ) = 0 Var(X)=0 Var(X)=0的充分必要条件是: ∃ a ∈ R n , c ∈ R 1 \exist a \in R^n, c \in R^1 ∃a∈Rn,c∈R1,使得 a T X = c a^TX = c aTX=c 。
n n n维正态随机向量性质:
1.3.4.3 相关矩阵
设 X = ( X 1 , X 2 , ⋯ , X n ) X=(X_1,X_2,\cdots,X_n) X=(X1,X2,⋯,Xn)为随机变量,则称 C o r ( X ) = ( ρ i j ) n × n Cor(X)=(\rho_{ij})_{n\times n} Cor(X)=(ρij)n×n为 X X X的相关矩阵(correlation matrix),其中 P i j = C o r ( X i , X j ) , i , j = 1 , 2 , ⋯ , n P_{ij} =Cor(X_i,X_j),i,j= 1,2,\cdots, n Pij=Cor(Xi,Xj),i,j=1,2,⋯,n
性质:
- C o r ( X ) Cor(X) Cor(X)为对角线元素均为1的半正定对称矩阵;
- 设 ∑ = ( σ i j ) n × n \sum=(\sigma_{ij})_{n\times n} ∑=(σij)n×n为方差矩阵, D = d i a g ( σ 11 1 2 , σ 22 1 2 , ⋯ , σ n n 1 2 ) D = diag(\sigma_{11}^{\frac{1}{2}},\sigma_{22}^{\frac{1}{2}},\cdots,\sigma_{nn}^{\frac{1}{2}}) D=diag(σ1121,σ2221,⋯,σnn21),则 C o r ( X ) = D − 1 ∑ D − 1 Cor(X)= D^{-1}\sum D^{-1} Cor(X)=D−1∑D−1。
1.4 大数定律与中心极限定理
1.4.1 大数定律
定义1.17 设 X 1 , X 2 , ⋯ , X k , ⋯ ) X_1,X_2,\cdots,X_k,\cdots) X1,X2,⋯,Xk,⋯)是随机变量序列且 E ( X k ) E(X_k) E(Xk)存在 ( k = 1 , 2 , ⋯ ) (k=1,2,\cdots) (k=1,2,⋯),令 Y n = 1 n ∑ k = 1 n X k Y_n=\frac{1}{n}\sum\limits_{k=1}^nX_k Yn=n1k=1∑nXk,若对于任意给定的 ε > 0 \varepsilon>0 ε>0,有 lim n → ∞ P { ∣ Y n − E ( Y n ) ∣ ≥ ε } = 0 \lim\limits_{n \rightarrow \infty} P\{\mid Y_n-E(Y_n)\mid\ge \varepsilon\}=0 n→∞limP{∣Yn−E(Yn)∣≥ε}=0,或 lim n → ∞ P { ∣ Y n − E ( Y n ) ∣ ≥ ε } = 1 \lim\limits_{n \rightarrow \infty} P\{\mid Y_n-E(Y_n)\mid\ge \varepsilon\}=1 n→∞limP{∣Yn−E(Yn)∣≥ε}=1,则称随机变量序列 { X k } \{X_k\} {Xk}服从大数定律。
1.4.1.1 Bernoulli 大数定律
设
n
A
n_A
nA是
n
n
n次独立重复试验中事件
A
A
A发生的次数,
p
p
p是事件
A
A
A在每次试验中发生的概率,则对于任意的正数
ε
>
0
\varepsilon>0
ε>0,有
lim
n
→
∞
P
{
∣
n
A
n
∣
<
ε
}
\lim\limits_{n\rightarrow \infty}P\{\mid\frac{n_A}{n}\mid<\varepsilon \}
n→∞limP{∣nnA∣<ε} 。
Bernoulli大数定律揭示了“频率稳定于概率”说法的实质。
1.4.1.2 Chebyshev(切比雪夫)大数定律
设随机变量 X 1 , X 2 , ⋯ , X k , ⋯ X_1,X_2,\cdots,X_k,\cdots X1,X2,⋯,Xk,⋯相互独立,且具有相同的期望与方差: E ( X k ) = μ , V a r ( X k ) = σ 2 ( k = 1 , 2 , ⋯ ) E(X_k)= \mu,Var(X_k)=\sigma^2(k = 1,2,\cdots) E(Xk)=μ,Var(Xk)=σ2(k=1,2,⋯),则对于任意的正数 ε > 0 \varepsilon>0 ε>0,有 lim n → ∞ P { ∣ Y n − μ ∣ < ε = 1 } \lim\limits_{n\rightarrow \infty}P\{\mid Y_n -\mu\mid<\varepsilon = 1 \} n→∞limP{∣Yn−μ∣<ε=1} 。
1.4.1.3 Khintchin(辛钦)大数定律
设随机变量 X 1 , X 2 , ⋯ , X k , ⋯ X_1,X_2,\cdots,X_k,\cdots X1,X2,⋯,Xk,⋯相互独立,服从相同的分布,且其期望 E ( X k ) = μ ( k = 1 , 2 , ⋯ ) E(X_k)=\mu(k =1,2,\cdots) E(Xk)=μ(k=1,2,⋯),则对于任意的正数 ε > 0 \varepsilon>0 ε>0,有 lim n → ∞ P { ∣ Y n − μ ∣ < ε = 1 } \lim\limits_{n\rightarrow \infty}P\{\mid Y_n -\mu\mid<\varepsilon = 1 \} n→∞limP{∣Yn−μ∣<ε=1} 。
若对随机变量序列 X 1 , X 2 , ⋯ , X k , ⋯ X_1,X_2,\cdots,X_k,\cdots X1,X2,⋯,Xk,⋯ ,存在常数 a a a,使得对于任意的正数 ε > 0 \varepsilon>0 ε>0,有 lim n → ∞ P { ∣ Y n − a ∣ < ε = 1 } \lim\limits_{n\rightarrow \infty}P\{\mid Y_n - a \mid<\varepsilon = 1 \} n→∞limP{∣Yn−a∣<ε=1}或 lim n → ∞ P { ∣ Y n − a ∣ ≥ ε = 0 } \lim\limits_{n\rightarrow \infty}P\{\mid Y_n - a \mid\ge\varepsilon = 0 \} n→∞limP{∣Yn−a∣≥ε=0}成立,则称 X n X_n Xn依概率收敛于 a a a,记作 X n → P a X_n\xrightarrow{P}a XnPa。
故上面的Chebyshev大数定律与Khintchin大数定律有 Y n = 1 n ∑ i = 1 n X i → P μ Y_n=\frac{1}{n}\sum\limits_{i=1}^{n}X_i\xrightarrow{P}\mu Yn=n1i=1∑nXiPμ
定理1.2 Chebyshev不等式 设随机变量 X X X具有期望 E ( X ) = μ E(X)=\mu E(X)=μ,方差 V a r ( X ) = σ 2 Var(X)=\sigma^2 Var(X)=σ2,则对于任意 ε > 0 \varepsilon>0 ε>0,有 P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2 P\{\mid X-\mu\mid\ge\varepsilon \}\le\frac{\sigma^2}{\varepsilon^2} P{∣X−μ∣≥ε}≤ε2σ2 。
1.4.2 中心极限定理
定义1.18 凡是在一定条件下,断定随机变量序列 X 1 , X 2 , ⋯ , X k , ⋯ X_1,X_2,\cdots,X_k,\cdots X1,X2,⋯,Xk,⋯的部分和 Y n = ∑ k = 1 n X k Y_n=\sum\limits_{k=1}^{n}X_k Yn=k=1∑nXk的极限分布为正态分布的定理,均称为中心极限定理。
1.4.2.1 独立同分布的中心极限定理
设随机变量
X
1
,
X
2
,
⋯
,
X
k
,
⋯
X_1,X_2,\cdots,X_k,\cdots
X1,X2,⋯,Xk,⋯相互独立,服从同一分布,并且具有期望和方差:
E
(
X
k
)
=
μ
,
V
a
r
(
X
k
)
=
σ
2
>
0
,
k
=
1
,
2
,
⋯
E(X_k)=\mu, Var(X_k)=\sigma^2> 0, k = 1,2,\cdots
E(Xk)=μ,Var(Xk)=σ2>0,k=1,2,⋯ ,则随机变量
Y
n
=
∑
k
=
1
n
X
k
−
n
μ
(
n
)
σ
Y_n=\frac{\sum\limits_{k=1}^nX_k-n\mu}{\sqrt(n)\sigma}
Yn=(n)σk=1∑nXk−nμ 的分布函数
F
n
(
x
)
F_n(x)
Fn(x)收敛到标准正态分布函数,即对于任意实数
x
x
x,有
lim
n
→
∞
F
n
(
x
)
=
lim
n
→
∞
P
{
Y
n
≤
x
}
=
Φ
(
x
)
\lim\limits_{n\rightarrow\infty} F_n(x)= \lim\limits_{n\rightarrow\infty}P\{Y_n\le x\}=\Phi(x)
n→∞limFn(x)=n→∞limP{Yn≤x}=Φ(x) ,其中
Φ
(
x
)
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt
Φ(x)=2π1∫−∞xe−2t2dt 。
从中心极限定理可知,当
n
n
n足够大时,
Y
n
Y_n
Yn近似服从标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1) 。
1.4.2.2 De Moivre-Laplace(棣莫佛-拉普拉斯)中心极限定理
设随机变量
X
1
,
X
2
,
⋯
,
X
k
,
⋯
X_1,X_2,\cdots,X_k,\cdots
X1,X2,⋯,Xk,⋯相互独立,并且服从参数为
p
p
p的两点分布,则对于任意实数
c
c
c,有
lim
n
→
∞
P
{
∑
i
=
1
n
X
i
−
n
p
n
p
(
1
−
p
)
≤
x
}
=
Φ
(
x
)
\lim\limits_{n\rightarrow\infty}P\Bigg\{\frac{\sum\limits_{i=1}^nX_i-np}{\sqrt{np(1-p)}}\le x \Bigg\}=\Phi(x)
n→∞limP{np(1−p)i=1∑nXi−np≤x}=Φ(x) 。
∑
t
=
1
n
X
i
\sum\limits_{t=1}^n X_i
t=1∑nXi服从二项分布
B
(
n
,
p
)
B(n,p)
B(n,p)。从 De Moivre-Laplace 中心极限定理可知,当
n
n
n足够大时,
B
(
n
,
p
)
B(n,p)
B(n,p)近似于正态分布.它是独立同分布的中心极限定理的特殊情况。
1.5 数理统计的基本思想
1.5.1 总体、个体、简单随机样本
在数理统计中,称研究对象的全体为总体(population),通常用一个随机变量表示总体.组成总体的每个基本单元叫个体(individuals).
从总体X中随机抽取一部分个体X1,X2,·,Xn,称X1,X2,·,Xn为取自X的容量为n的样本(sample).
若X1,X2,… ,X相互独立,且每个X;与X同分布,则称X1,X2,……… ,Xn为简单随机样本(simple random sample),简称样本.通常把n称为样本容量(samplesize).
值得注意的是,样本具有两重性,即当在一次具体地抽样后它是一组确定的数值.但在一般叙述中样本也是一组随机变量,因为抽样是随机的.今后,用X1,X2,…,Xn表示随机样本,它们取到的值记为1, 02,… , zn,称为样本观测值(sample value).
1.5.2 参数空间与分布族
1.5.3 统计量与抽样分布
定义1.19设X1,X2,,Xn是总体X的一个简单随机样本,T(Xi,X2,… ,Xn)为一个n元连续函数,且T中不含任何关于总体的未知参数,则称T(X1,X2,·…,Xn)为一个统计量(statistic).称统计量的分布为抽样分布( samplingdistribution).
1.5.4 正态总体样本均值与样本方差的分布
1.6 参数估计
1.7 假设检验
1.9 线性回归与方差分析
1.10 正交试验设计
第 2 章 R语言基本用法
第 3 章 数据描述性分析
3.1描述统计量
3.1.1 位置的度量
均值
# 均值(mean)
mean(x, trim = 0, na.rm = FALSE)
顺序统计量
sort(x, partial = NULL, na.last = NA, decreasing = FALSE, method = c("shell", "quick"), index.return = FALSE)
中位数