概率论1-随机事件和概率

同步于Buracag的博客;音尘杂记

主要回顾概率论中关于样本空间、随机事件和常见概率分布的基础知识。

1. 样本空间

样本空间 是一个随机试验所有可能结果的集合。例如,如果抛掷一枚硬币,那么样本空间就是集合{正面,反面}。如果投掷一个骰子,那么样本空间就是{1, 2, 3, 4, 5, 6}。随机试验中的每个可能结果称为样本点。

有些试验有两个或多个可能的样本空间。例如,从52 张扑克牌中随机抽出一张,样本空间可以是数字(A到K),也可以是花色(黑桃,红桃,梅花,方块)。如果要完整地描述一张牌,就需要同时给出数字和花色,这时样本空间可以通过构建上述两个样本空间的笛卡儿乘积来得到。

2. 随机事件

随机事件(或简称事件) 指的是一个被赋予概率的事物集合,也就是样本空间中的一个子集。**概率(Probability)**表示一个随机事件发生的可能性大小,为0 到1 之间的一个非负实数。比如,一个0.5 的概率表示一个事件有50%的可能性发生。

对于一个机会均等的抛硬币动作来说,其样本空间为“正面”或“反面”。我们可以定义各个随机事件,并计算其概率。比如,

  • {正面},其概率为0.5;
  • {反面},其概率为0.5;
  • 空集∅,不是正面也不是反面,其概率为0;
  • {正面| 反面},不是正面就是反面,其概率为1

3. 随机变量

在随机试验中,试验的结果可以用一个数 X X X来表示,这个数 X X X是随着试验结果的不同而变化的,是样本点的一个函数。我们把这种数称为随机变量(Random Variable)。例如,随机掷一个骰子,得到的点数就可以看成一个随机变量 X X X X X X的取值为{1, 2, 3, 4, 5, 6}。

如果随机掷两个骰子,整个事件空间Ω可以由36 个元素组成:
(1) Ω = { ( i , j ) ∣ i = 1 , . . . , 6 ; j = 1 , . . . , 6 } Ω = \{(i, j)|i = 1, ... , 6; j = 1, ... , 6\} \tag{1} Ω={(i,j)i=1,...,6;j=1,...,6}(1)
一个随机事件也可以定义多个随机变量。比如在掷两个骰子的随机事件中,可以定义随机变量 X X X为获得的两个骰子的点数和,也可以定义随机变量 Y Y Y为获得的两个骰子的点数差。随机变量 X X X可以有11个整数值,而随机变量Y 只有6个。
在这里插入图片描述
其中 i , j i, j i,j分别为两个骰子的点数。

3.1 离散随机变量

如果随机变量 X X X所有可能取的值为有限可列举的,有 n n n个有限取值 x 1 , . . . , x n {x_1, ... , x_n} x1,...,xn,则称 X X X为离散随机变量

要了解 X X X的统计规律,就必须知道它取每种可能值 x i x_i xi的概率,即
(4) P ( X = x i ) = p ( x i ) , ∀ i ∈ [ 1 , n ] P(X = x_i) = p(x_i), \qquad ∀i \in [1, n] \tag{4} P(X=xi)=p(xi),i[1,n](4)
p ( x 1 ) , . . . , p ( x n ) p(x_1), ... , p(x_n) p(x1),...,p(xn)称为离散型随机变量 X X X概率分布(Probability Distribution)分布,并且满足
在这里插入图片描述
常见的离散随机变量的概率分布有:

伯努利分布 在一次试验中,事件A出现的概率为 μ \mu μ,不出现的概率为 1 − μ 1−\mu 1μ。若用变量 X X X表示事件A出现的次数,则 X X X的取值为0和1,其相应的分布为:
(6) p ( x ) = μ x ( 1 − μ ) ( 1 − x ) p(x) = μ^x(1 − μ)^{(1−x)} \tag{6} p(x)=μx(1μ)(1x)(6)
这个分布称为伯努利分布(Bernoulli Distribution),又名两点分布或者0-1分布

二项分布 在n次伯努利分布中,若以变量 X X X表示事件A出现的次数,则 X X X的取值为{0, · · · , n},其相应的分布为二项分布(Binomial Distribution)
(7) P ( X = k ) = ( n k ) μ k ( 1 − μ ) n − k , k = 1 , . . . , n P(X = k) = \tbinom{n}{k}μ^k(1 − μ)^{n−k}, \quad k = 1, ... , n \tag{7} P(X=k)=(kn)μk(1μ)nk,k=1,...,n(7)
其中 ( n k ) \tbinom{n}{k} (kn)为二项式系数(这就是二项分布的名称的由来),表示从 n n n个元素中取出 k k k个元素而不考虑其顺序的组合的总数。

3.2 连续随机变量

与离散随机变量不同,一些随机变量 X X X的取值是不可列举的,由全部实数或者由一部分区间组成,比如
(8) X = { x ∣ a ≤ x ≤ b } , − ∞ &lt; a &lt; b &lt; ∞ X = \{x|a ≤ x ≤ b\}, -\infty &lt; a &lt; b &lt; \infty \tag{8} X={xaxb},<a<b<(8)
则称 X X X连续随机变量。连续随机变量的值是不可数及无穷尽的。

对于连续随机变量 X X X,它取一个具体值 x i x_i xi的概率为0,这个离散随机变量截然不同。因此用列举连续随机变量取某个值的概率来描述这种随机变量不但做不到,也毫无意义。

连续随机变量 X X X的概率分布一般用概率密度函数(Probability Density Function,PDF) p(x)来描述。p(x)为可积函数,并满足
在这里插入图片描述
给定概率密度函数p(x),便可以计算出随机变量落入某一个区间的概率,而p(x)本身反映了随机变量取落入x的非常小的邻近区间中的概率大小。常见的连续随机变量的概率分布有:

均匀分布 若a, b为有限数,[a, b]上的均匀分布(Uniform Distribution)的概率密度函数定义为
(10) p ( x ) = { 1 b − a a ≤ x ≤ b 0 x &gt; b 或 x &lt; a p(x) = \begin{cases} \frac{1}{b-a} &amp; a\leq x \leq b \\ 0 &amp; x&gt;b或x&lt;a \end{cases} \tag{10} p(x)={ba10axbx>bx<a(10)
正态分布 正态分布(Normal Distribution),又名
高斯分布(Gaussian Distribution)
,是自然界最常见的一种分布,并且具有很多良好的性质,在很多领域都有非常重要的影响力,其概率密度函数为
(11) p ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(− \frac{(x − μ)^2}{2\sigma^2}) \tag{11} p(x)=2π σ1exp(2σ2(xμ)2)(11)
其中 σ &gt; 0 \sigma &gt; 0 σ>0 μ \mu μ σ \sigma σ均为常数。若随机变量 X X X服从一个参数为 μ \mu μ σ \sigma σ的概率分布,简记为
(12) X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) \tag{12} XN(μ,σ2)(12)
μ = 0 , σ = 1 \mu = 0,\sigma = 1 μ=0σ=1时,称为标准正态分布(Standard Normal Distribution)

3.3 累积分布函数

对于一个随机变量 X X X,其**累积分布函数(Cumulative Distribution Function,CDF)**是随机变量 X X X的取值小于等于 x x x的概率。
(13) c d f ( x ) = P ( X ≤ x ) cdf(x) = P(X \leq x) \tag{13} cdf(x)=P(Xx)(13)
以连续随机变量 X X X为例,累积分布函数定义为
(14) c d f ( x ) = ∫ − ∞ x p ( t ) d t cdf(x) =\int_{-\infty}^{x}p(t)dt \tag{14} cdf(x)=xp(t)dt(14)
其中p(x)为概率密度函数。下图给出了标准正态分布的累计分布函数和概率密度函数。
在这里插入图片描述

4. 随机向量

随机向量 是指一组随机变量构成的向量。如果 X 1 , X 2 , . . . , X n X_1,X_2, ... ,X_n X1,X2,...,Xn n n n个随机变量, 那么称 [ X 1 , X 2 , . . . , X n ] [X_1,X_2, ... ,X_n] [X1,X2,...,Xn]为一个 n n n维随机向量。一维随机向量称为随机变量。随机向量也分为离散随机向量连续随机向量

4.1离散随机向量

离散随机向量的**联合概率分布(Joint Probability Distribution)**为
(15) P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = p ( x 1 , x 2 , . . . , x n ) P(X_1 = x_1,X_2 = x_2, ... ,X_n = x_n) = p(x_1, x_2, ... , x_n) \tag{15} P(X1=x1,X2=x2,...,Xn=xn)=p(x1,x2,...,xn)(15)
其中 x i ∈ ω i x_i \in \omega_i xiωi为变量 X i X_i Xi的取值, ω i \omega_i ωi为变量 X i X_i Xi的样本空间。和离散随机变量类似,离散随机向量的概率分布满足
在这里插入图片描述

多项分布 一个常见的离散向量概率分布为多项分布(Multinomial Distribution)。多项分布是二项分布在随机向量的推广。假设一个袋子中装了很多球,总共有 K K K个不同的颜色。我们从袋子中取出 n n n个球。每次取出一个时,就在袋子中放入一个同样颜色的球(或者说有放回的抽样)。这样保证同一颜色的球在不同试验中被取出的概率是相等的。令 X X X为一个 K K K维随机向量,每个元素 X k ( k = 1 , . . . , K ) X_k(k = 1, ... ,K) Xk(k=1,...,K)为取出的 n n n个球中颜色为 k k k的球的数量,则 X X X服从多项分布,其概率分布为
(18) p ( x 1 , . . . , x K ∣ μ ) = n ! x 1 ! . . . x K ! μ 1 x 1 . . . μ K x K p(x_1, ... , x_K|\mu) = \frac{n!}{x_1! ... x_K!}μ_1^{x_1} ... μ_K^{x_K} \tag{18} p(x1,...,xKμ)=x1!...xK!n!μ1x1...μKxK(18)
其中 μ = [ μ 1 , . . . , μ K ] T \mu = [\mu_1, ... , \mu_K]^T μ=[μ1,...,μK]T分别为每次抽取的球的颜色为1, … ,K的概率; x 1 , . . . , x K x_1, ... , x_K x1,...,xK为非负整数,并且满足 ∑ k = 1 K x k = n \sum_{k=1}^{K}x_k = n k=1Kxk=n

多项分布的概率分布也可以用gamma函数表示:
(19) p ( x 1 , . . . , x K ∣ μ ) = Γ ( ∑ k x k + 1 ) ∏ k Γ ( x k + 1 ) ∏ k = 1 K μ k x k p(x_1, ... , x_K|\mu) = \frac{\Gamma(\sum_k x_k+1)}{\prod_k \Gamma(x_k+1)}\prod_{k=1}^{K}\mu_k^{x_k} \tag{19} p(x1,...,xKμ)=kΓ(xk+1)Γ(kxk+1)k=1Kμkxk(19)
其中 Γ ( z ) = ∫ 0 ∞ t z − 1 e x p ( t ) d t \Gamma(z) = \int_{0}^{\infty}\frac{t^{z−1}}{exp(t)}dt Γ(z)=0exp(t)tz1dt为gamma函数。这种表示形式和狄利克雷分布( Dirichlet Distribution)类似,而狄利克雷分布可以作为多项分布的共轭先验。

4.2 连续随机向量

连续随机向量的其联合概率密度函数(Joint Probability Density Function)满足
在这里插入图片描述
多元正态分布 一个常见的连续随机向量分布为
多元正态分布(Multivariate Normal

Distribution),也称为多元高斯分布(Multivariate Gaussian Distribution)。若 n n n维随机向量 X = [ X 1 , . . . , X n ] T X = [X_1, ... ,X_n]^T X=[X1,...,Xn]T服从 n n n元正态分布,其密度函数为
(22) p ( x ) = 1 ( 2 π ) n / 2 ∣ ∑ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) ) p(x) = \frac{1}{(2π)^{n/2}|\sum|^{1/2}} exp(-\frac{1}{2}(x−\mu)^T\sum^{−1}(x−\mu)) \tag{22} p(x)=(2π)n/21/21exp(21(xμ)T1(xμ))(22)
其中 μ \mu μ为多元正态分布的均值向量, ∑ \sum 为多元正态分布的协方差矩阵, ∣ ∑ ∣ |\sum| 表示 ∑ \sum 的行列式。

各项同性高斯分布 如果一个多元高斯分布的协方差矩阵简化为 ∑ = σ 2 I \sum = \sigma^2I =σ2I,即每一个维随机变量都独立并且方差相同,那么这个多元高斯分布称为各项同性高斯分布(Isotropic Gaussian Distribution)

Dirichlet 分布 一个 n n n维随机向量 X X X的Dirichlet 分布为
(23) p ( x ∣ α ) = Γ ( α 0 ) Γ ( α 1 ) . . . Γ ( α n ) ∏ i = 1 n x i α i − 1 p(x|\alpha) = \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1) ... \Gamma(\alpha_n)} \prod_{i=1}^{n}x_i^{\alpha_i - 1} \tag{23} p(xα)=Γ(α1)...Γ(αn)Γ(α0)i=1nxiαi1(23)
其中 α = [ α 1 , . . . , α K ] T \alpha = [\alpha_1, ... , \alpha_K]^T α=[α1,...,αK]T为Dirichlet分布的参数。

5. 边际分布

对于二维离散随机向量 ( X , Y ) (X, Y) (X,Y),假设 X X X取值空间为 Ω x \Omega_x Ωx Y Y Y取值空间为 Ω y \Omega_y Ωy。其联合概率分布满足
(24) p ( x , y ) ≥ 0 , ∑ x ∈ Ω x ∑ y ∈ Ω y p ( x i , y j ) = 1 p(x, y) \geq 0,\sum_{x\in \Omega_x}\sum_{y \in \Omega_y}p(x_i, y_j) = 1 \tag{24} p(x,y)0,xΩxyΩyp(xi,yj)=1(24)
对于联合概率分布p(x, y),我们可以分别对x和y进行求和。

(1) 对于固定的x,
(25) ∑ y ∈ Ω y p ( x , y ) = P ( X = x ) = p ( x ) \sum_{y\in \Omega_y}p(x, y) = P(X = x) = p(x) \tag{25} yΩyp(x,y)=P(X=x)=p(x)(25)
(2) 对于固定的y,
(26) ∑ x ∈ Ω x p ( x , y ) = P ( Y = y ) = p ( y ) \sum_{x \in \Omega_x}p(x, y) = P(Y = y) = p(y) \tag{26} xΩxp(x,y)=P(Y=y)=p(y)(26)
由离散随机向量 ( X , Y ) (X, Y) (X,Y)的联合概率分布,对 Y Y Y的所有取值进行求和得到 X X X的概率分布;而对 X X X的所有取值进行求和得到 Y Y Y的概率分布。这里p(x)和p(y)就称为p(x, y)的边际分布(Marginal Distribution)

对于二维连续随机向量(X, Y),其边际分布为:
在这里插入图片描述
一个二元正态分布的边际分布仍为正态分布。

6. 条件概率分布

对于离散随机向量 ( X , Y ) (X, Y) (X,Y),已知 X = x X = x X=x的条件下,随机变量 Y = y Y = y Y=y的**条件概率(Conditional Probability)**为:
(29) p ( y ∣ x ) = P ( Y = y ∣ X = x ) = p ( x , y ) p ( x ) p(y|x) = P(Y = y|X = x) = \frac{p(x, y)}{p(x)} \tag{29} p(yx)=P(Y=yX=x)=p(x)p(x,y)(29)
这个公式定义了随机变量 Y Y Y关于随机变量X的条件概率分布(Conditional Probability Distribution),简称条件分布。

对于二维连续随机向量 ( X , Y ) (X, Y) (X,Y),已知 X = x X = x X=x的条件下,随机变量 Y = y Y = y Y=y条件概率密度函数(Conditional Probability Density Function)
(30) p ( y ∣ x ) = p ( x , y ) p ( x ) p(y|x) = \frac{p(x, y)}{p(x)} \tag{30} p(yx)=p(x)p(x,y)(30)
同理,已知 Y = y Y = y Y=y的条件下,随机变量 X = x X = x X=x的条件概率密度函数为
(31) p ( x ∣ y ) = p ( x , y ) p ( y ) p(x|y) = \frac{p(x, y)}{p(y)} \tag{31} p(xy)=p(y)p(x,y)(31)
通过公式(30) 和(31),我们可以得到两个条件概率p(y|x) 和p(x|y) 之间的关系。
(32) p ( y ∣ x ) = p ( x ∣ y ) p ( y ) p ( x ) p(y|x) = \frac{p(x|y)p(y)}{p(x)} \tag{32} p(yx)=p(x)p(xy)p(y)(32)
这个公式称为
贝叶斯定理(Bayes’ Theorem)
,或贝叶斯公式。

7. 独立与条件独立

对于两个离散(或连续)随机变量 X X X Y Y Y,如果其联合概率(或联合概率密度函数)p(x, y) 满足
(33) p ( x , y ) = p ( x ) p ( y ) p(x, y) = p(x)p(y) \tag{33} p(x,y)=p(x)p(y)(33)
则称X 和Y相互独立(independence),记为 X ⊥ &NegativeThinSpace;&NegativeThinSpace;&NegativeThinSpace; ⊥ Y X \perp \!\!\! \perp Y XY

对于三个离散(或连续)随机变量X、Y 和Z,如果条件概率(或联合概率密度函数)p(x, y|z) 满足
(34) p ( x , y ∣ z ) = P ( X = x , Y = y ∣ Z = z ) = p ( x ∣ z ) p ( y ∣ z ) p(x, y|z) = P(X = x, Y = y|Z = z) = p(x|z)p(y|z) \tag{34} p(x,yz)=P(X=x,Y=yZ=z)=p(xz)p(yz)(34)
则称在给定变量 Z Z Z时, X X X Y Y Y条件独立(conditional independence),记为 X ⊥ &NegativeThinSpace;&NegativeThinSpace;&NegativeThinSpace; ⊥ Y ∣ Z X \perp \!\!\! \perp Y|Z XYZ

8. 期望和方差

期望 对于离散变量 X X X,其概率分布为 p ( x 1 ) , . . . , p ( x n ) p(x_1), ... , p(x_n) p(x1),...,p(xn) X X X的期望(Expectation)或均值定义为
(35) E [ X ] = ∑ i = 1 n x i p ( x i ) \Bbb{E}[X] = \sum_{i=1}^{n}x_ip(x_i) \tag{35} E[X]=i=1nxip(xi)(35)
对于连续随机变量 X X X,概率密度函数为 p ( x ) p(x) p(x),其期望定义为
(36) E [ X ] = ∫ R x p ( x ) d x \Bbb{E}[X] = \int_{\Bbb{R}}xp(x) dx \tag{36} E[X]=Rxp(x)dx(36)
方差 随机变量 X X X的方差(Variance)用来定义它的概率分布的离散程度,定义为
(37) v a r ( X ) = E [ X − E ( X ) ] 2 var(X) = \Bbb{E}[X − \Bbb{E}(X)]^2 \tag{37} var(X)=E[XE(X)]2(37)
随机变量 X X X的方差也称为它的二阶矩。 v a r ( X ) \sqrt{var(X)} var(X) 则称为 X X X的根方差或标准差。

协方差 两个连续随机变量X和Y的协方差(Covariance)用来衡量两个随机变量的分布之间的总体变化性,定义为
(38) c o v ( X , Y ) = E [ ( X − ( X ) ) ( ( Y − E ( Y ) ) ] cov(X, Y) = \Bbb{E}[(X − \Bbb(X))((Y − \Bbb{E}(Y))] \tag{38} cov(X,Y)=E[(X(X))((YE(Y))](38)
协方差经常也用来衡量两个随机变量之间的线性相关性。如果两个随机变量的协方差为0,那么称这两个随机变量是
线性不相关
。两个随机变量之间没有这里的线性相关性,并非表示它们之间独立的,可能存在某种非线性的函数关系。反之,如果X 与Y是统计独立的,那么它们之间的协方差一定为0。

协方差矩阵 两个m和n维的连续随机向量X和Y,它们的协方差(Covariance)为m × n的矩阵,定义为
(39) c o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) T ] cov(X,Y) = \Bbb{E}[(X − \Bbb{E}(X))(Y − \Bbb{E}(Y))^T] \tag{39} cov(X,Y)=E[(XE(X))(YE(Y))T](39)
协方差矩阵 c o v ( X , Y ) cov(X,Y) cov(X,Y)的第 ( i , j ) (i, j) (i,j)个元素等于随机变量 X i X_i Xi Y j Y_j Yj的协方差。两个向量变量的协方差 c o v ( X , Y ) cov(X,Y) cov(X,Y) c o v ( Y , X ) cov(Y,X) cov(Y,X)互为转置关系。如果两个随机向量的协方差矩阵为对角阵,那么称这两个随机向量是无关的。

单个随机向量X的协方差矩阵定义为
(40) c o v ( X ) = c o v ( X , X ) cov(X) = cov(X,X) \tag{40} cov(X)=cov(X,X)(40)

8.1 Jensen不等式

如果 X X X是随机变量, g g g是凸函数,则
(41) g ( E [ X ] ) ≤ E [ g ( X ) ] g(\Bbb{E}[X]) \leq \Bbb{E}[g(X)] \tag{41} g(E[X])E[g(X)](41)
等式当且仅当 X X X是一个常数或 g g g是线性时成立。

8.2 大数定律和中心极限定理

大数定律(Law Of Large Numbers) 是指 n n n个样本 X 1 , . . . , X n X_1, ... ,X_n X1,...,Xn是独立同分布的,即 E [ X 1 ] = . . . = E [ X n ] = μ E[X_1] = ... = E[X_n] = \mu E[X1]=...=E[Xn]=μ,那么其均值收敛于期望值 μ \mu μ
(42) lim ⁡ n → ∞ X ˉ n = lim ⁡ n → ∞ 1 n ( X 1 + . . . + X n ) → μ \lim_{n \to \infty} \bar{X}_n = \lim_{n\to \infty} \frac{1}{n}(X_1 + ... + X_n) \to \mu \tag{42} nlimXˉn=nlimn1(X1+...+Xn)μ(42)
中心极限定理(Central Limit Theorem) 是指 n n n个样本 X 1 , . . . , X n X_1, ... ,X_n X1,...,Xn是独立同分布的,则对任意x,分布函数
F n ( x ) = P ( ∑ i = 1 n X i − n μ σ n ≤ x ) F_n(x) = P(\frac{\sum_{i=1}^{n}X_i - n\mu}{\sigma \sqrt{n}} \leq x) Fn(x)=P(σn i=1nXinμx)
满足:
lim ⁡ n → ∞ F n ( x ) \lim_{n \to \infty} F_n(x) limnFn(x) 近似服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)

主要参考https://github.com/nndl/nndl.github.io

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值