机器学习/深度学习 常用概率知识

本文详细介绍了概率论的基础概念,包括样本空间、事件与概率、随机变量(离散与连续)、随机向量、边际分布、条件概率分布、贝叶斯定理以及独立与条件独立的概念。深入探讨了各种概率分布,如伯努利、二项、均匀、正态、多项、高斯、狄利克雷等。
摘要由CSDN通过智能技术生成

1.样本空间

定义:样本空间是一个随机试验所有可能结果的集合。比如:投掷一枚硬币,样本空间为:{正面,反面}。随机试验中的每个可能结果叫做样本点

有些试验有两个或者多个的样本空间,比如:随机抽取一张扑克,样本空间可以是数字,可以是花色。这时候,如果要完整描述一张牌,就要使用到笛卡尔积

χ × y = { < x , y > ∣ x ∈ χ ∧ y ∈ y } (式1) \chi\times\mathbb{y}=\{<x,y>\vert{x}\in\chi\land{y}\in{\mathbb{y}}\}\tag{式1} χ×y={<x,y>xχyy}(1)

2.事件和概率

随机事件或者(简称为事件):是指一个被赋予概率的事物集合,也就是样本空间中的一个子集。概率是指一个随机事件发生的可能性大小,介于0和1之间。

2.1 随机变量

在随机试验中,将试验的结果用 X X X表示,这个 X X X会随着试验结果的不同而变化,是样本点的一个函数。把这个数叫做随机变量。比如掷骰子:随机变量 X X X的取值为 { 1 , 2 , 3 , 4 , 5 , 6 } \{1,2,3,4,5,6\} {1,2,3,4,5,6}

一个随机事件也可以定义多个随机变量。比如:在掷2个骰子的随机事件中,可以定义随机变量 X X X为获得点数之和,或者点数之差。分别记为: X 和 Y X和Y XY
X ( i , j ) : = i + j , x = 2 , 3 , ⋯   , 12 (式2) X(i,j):=i+j,\qquad{x=2,3,\cdots,12}\tag{式2} X(i,j):=i+j,x=2,3,,12(2)

Y ( i , j ) : = i − j , y = 0 , 1 , 2 , 3 , 4 , 5 (式3) Y(i,j):=i-j,\qquad{y=0,1,2,3,4,5}\tag{式3} Y(i,j):=ij,y=0,1,2,3,4,5(3)

其中, i , j i,j ij分别表示两个骰子的点数。

2.1.1 离散随机变量

离散随机变量:如果随机变量 X X X所有可能取到的值是有限的可以列举的,有 N N N个有限值:
{ x 1 , ⋯   , x N } (式4) \{x_1,\cdots,x_N\}\tag{式4} {x1,,xN}(4)
这样一来,我们就把 X X X叫做离散随机变量

记每一种可能的取值都有 x n x_n xn的概率, P ( X = x n ) = p ( x n ) ∀ n ∈ { 1 , ⋯   , N } P(X=x_n)=p(x_n)\qquad{\forall_n\in\{1,\cdots,N\}} P(X=xn)=p(xn)n{1,,N}

这里面的 p ( x 1 ) , ⋯   , p ( x N ) p(x_1),\cdots,p(x_N) p(x1),,p(xN)称为离散随机变量的概率分布,或者分布,满足:
∑ n = 1 N p ( x n ) = 1 p ( x n ) ≥ 0 , ∀ n ∈ { 1 , ⋯   , N } (式5) \sum_{n=1}^{N}p(x_n)=1 \qquad{p(x_n)\ge0,\forall_n\in\{1,\cdots,N\}}\tag{式5} n=1Np(xn)=1p(xn)0,n{1,,N}(5)
常见的离散随机变量的概率分布有:

(1)伯努利分布

在一次试验中,事件 A A A发生的概率为 μ \mu μ,则不发生的概率为: 1 − μ 1-\mu 1μ。使用 X X X表示事件 A A A出现的次数,则 X X X取值为0和1,分布表示如下:
p ( x ) = μ x ( 1 − μ ) ( 1 − x ) (式6) p(x)=\mu^x(1-\mu)^{(1-x)}\tag{式6} p(x)=μx(1μ)(1x)(6)
如上分布叫做伯努利分布,也叫做两点分布或者0-1分布

(2)二项分布

n n n次伯努利试验中,使用 X X X表示事件 A A A出现的次数,则 X X X取值为: { 0 , ⋯   , N } \{0,\cdots,N\} {0,,N},分布表示如下:
P ( X = k ) = C N k μ k ( 1 − μ ) N − k k = 0 , ⋯   , N (式7) P(X=k)=C_N^k{\mu^k(1-\mu)^{N-k}}\qquad{k=0,\cdots,N}\tag{式7} P(X=k)=CNkμk(1μ)Nkk=0,,N(7)
其中, C N k C_N^k CNk表示二项式系数,表示从 N N N各元素中取出 k k k个元素,且不考虑其顺序的组合的总数。

2.1.2 连续随机变量

和离散型随机变量相比,不同之处在于:连续随机变量 X X X的取值是不可列举的,由全部实数或者由一部分区间组成,比如:
X = { x ∣ a ≤ x ≤ b } , − ∞ < a < b < ∞ (式8) X=\{x\vert{a\le{x}\le{b}\}},\qquad{-\infty<a<b<\infty}\tag{式8} X={xaxb},<a<b<(8)
这样子就把 X X X称之为连续随机变量 ,连续随机变量的取值是不可数及无穷尽的。

连续随机变量 X X X的概率分布一般使用概率密度函数 p ( x ) p(x) p(x)来描述, p ( x ) p(x) p(x)可积,满足:
∫ − ∞ ∞ p ( x ) d x = 1 (式9) \int_{-\infty}^{\infty}p(x)dx=1\tag{式9} p(x)dx=1(9)
常见的连续随机变量的概率分布有:

(1)均匀分布

a , b a,b a,b为有限的数, [ a , b ] [a,b] [a,b]上的均匀分布的概率密度函数定义如下:
p ( x ) = { 1 b − a a ≤ x ≤ b 0 x < a 或 者 x > b (式10) p(x)=\begin{cases}\cfrac{1}{b-a}\qquad{a\le{x}\le{b}}\\\quad0\qquad\quad{x<a或者x>b}\end{cases}\tag{式10} p(x)=ba1axb0x<ax>b(10)

(2)正态分布

正态分布也叫做高斯分布,应用领域很多,概率密度函数如下:
p ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) (式11) p(x)=\cfrac{1}{\sqrt{2\pi}\sigma}exp(-\cfrac{(x-\mu)^2}{2\sigma^2})\tag{式11} p(x)=2π σ1exp(2σ2(xμ)2)(11)
其中, σ > 0 \sigma>0 σ>0, μ 和 σ \mu和\sigma μσ均为常数。如若,随机变量 X X X服从一个参数为$

\mu和\sigma$的概率分布,则简记为:
X ∼ N ( μ , σ 2 ) (式12) X\thicksim\mathcal{N}(\mu,\sigma^2)\tag{式12} XN(μ,σ2)(12)
μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1时,称为标准正态分布

均匀分布和正态分布的图示如下:

在这里插入图片描述

2.1.3 累积分布函数

对于一个随机变量 X X X,其累积分布函数是随机变量 X X X的取值小于等于 x x x的概率。
c d f ( x ) = P ( X ≤ x ) (式13) cdf(x)=P(X\le{x})\tag{式13} cdf(x)=P(Xx)(13)
以连续随机变量 X X X为例,其累积分布函数定义如下:
c d f ( x ) = ∫ − ∞ x p ( t ) d t (式14) cdf(x)=\int_{-\infty}^{x}p(t)dt\tag{式14} cdf(x)=xp(t)dt(14)
其中, p ( x ) p(x) p(x)为概率密度函数,标准正态分布和累积分布的概率密度函数如下:

在这里插入图片描述

2.2 随机向量

随机向量是指一组随机变量构成的向量。如: X 1 , X 2 , ⋯   , X k X_1,X_2,\cdots,X_k X1,X2,,Xk K K K个随机变量,那么称 X = [ X 1 , X 2 , ⋯   , X k ] \boldsymbol{X}=[X_1,X_2,\cdots,X_k] X=[X1,X2,,Xk]为一个 K K K维的随机向量。一维随机向量称为随机变量。

随机向量也分为:离散随机向量和连续随机向量。

2.2.1 离散随机向量

离散随机向量的联合概率分布为:
P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X K = x K ) = p ( x 1 , x 2 , ⋯   , x K ) (式15) P(X_1=x_1,X_2=x_2,\cdots,X_K=x_K)=p(x_1,x_2,\cdots,x_K)\tag{式15} P(X1=x1,X2=x2,,XK=xK)=p(x1,x2,,xK)(15)
其中, x k ∈ Ω k x_k\in{\Omega_k} xkΩk为变量 X k X_k Xk的取值, Ω k \Omega_k Ωk为变量 X k X_k Xk的样本空间。和离散随机变量类似有:
p ( x 1 , x 2 , ⋯   , x K ) ≥ 0 , ∀ x 1 ∈ Ω 1 , x 2 ∈ Ω 2 , ⋯   , x K ∈ Ω K (式16) p(x_1,x_2,\cdots,x_K)\ge0,\qquad{\forall{x_1\in{\Omega_1},x_2\in{\Omega_2},\cdots,x_K\in{\Omega_K}}}\tag{式16} p(x1,x2,,xK)0,x1Ω1,x2Ω2,,xKΩK(16)

∑ x 1 ∈ Ω 1 ∑ x 2 ∈ Ω 2 ⋯ ∑ x K ∈ Ω K p ( x 1 , x 2 , ⋯   , x K ) = 1 (式17) \sum_{x_1\in{\Omega_1}}\sum_{x_2\in\Omega_2}\cdots\sum_{x_K\in{\Omega_K}}p(x_1,x_2,\cdots,x_K)=1\tag{式17} x1Ω1x2Ω2xKΩKp(x1,x2,,xK)=1(17)

(1)多项分布

多项分布是常见的离散向量概率分布,多项分布是二项分布在随机向量的推广。假设一个袋子中装了很多球,总共有 K K K个不同的颜色. 我们从袋子中取出 N N N个球. 每次取出一个球时,就在袋子中放入一个同样颜色的球. 这样保证同一颜色的球在不同试验中被取出的概率是相等的. 令 X \boldsymbol{X} X为一个 K K K维随机向量,每个元素 X k ( k = 1 , ⋯   , K ) X_k(k=1,\cdots,K) Xk(k=1,,K)为取出的 N N N个球中颜色为 k k k的球的数量,则 X X X服从多项分布,其概率分布为:
p ( x 1 , ⋯   , x K ∣ μ ) = N ! x 1 ! ⋯ x K ! μ 1 x 1 ⋯ μ K x K (式18) p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{N!}{x_1!\cdots{x_K}!}\mu_1^{x_1}\cdots\mu_K^{x_K}\tag{式18} p(x1,,xKμ)=x1!xK!N!μ1x1μKxK(18)
多项分布的概率分布用gamma函数表示如下:
p ( x 1 , ⋯   , x K ∣ μ ) = Γ ( ∑ k x k + 1 ) ∏ k Γ ( x k + 1 ) ∏ k = 1 K μ k x k (式19) p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{\Gamma(\sum_kx_k+1)}{\prod_k\Gamma(x_k+1)}\prod_{k=1}^{K}\mu_k^{x_k}\tag{式19} p(x1,,xKμ)=kΓ(xk+1)Γ(kxk+1)k=1Kμkxk(19)

这种形式表示和狄利克雷分布类似,狄利克雷分布可以作为多项分布的共轭先验。

∫ 0 + ∞ x α − 1 e − x d x = Γ ( α ) (式20) \int_{0}^{+\infty}x^{\alpha-1}e^{-x}dx=\Gamma(\alpha)\tag{式20} 0+xα1exdx=Γ(α)(20)

例如: ∫ 0 + ∞ x 5 e − x d x = Γ ( 6 ) \int_{0}^{+\infty}x^{5}e^{-x}dx=\Gamma(6) 0+x5exdx=Γ(6)

2.2.2 连续随机向量

一个 K K K维连续随机向量 X \boldsymbol{X} X的联合概率密度函数满足:
p ( x ) = p ( x 1 , ⋯   , x K ) ≥ 0 (式21) p(\boldsymbol{x})=p(x_1,\cdots,x_K)\ge0\tag{式21} p(x)=p(x1,,xK)0(21)

∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x 1 , ⋯   , x K ) d x 1 ⋯ d x K = 1 (式22) \int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}p(x_1,\cdots,x_K)dx_1\cdots{dx_K}=1\tag{式22} ++p(x1,,xK)dx1dxK=1(22)

(1)多元正态分布

也叫做多元高斯分布,如若 K K K维随机向量 X = [ X 1 , ⋯   , X K ] T \boldsymbol{X}=[X_1,\cdots,X_K]^T X=[X1,,XK]T服从 K K K元正态分布,其密度函数为:
p ( x ) = 1 ( 2 π ) n / 2 ∣ ∑ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) ) (式23) p(\boldsymbol{x})=\cfrac{1}{(2\pi)^{n/2}|\sum|^{1/2}}exp(-\cfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\bold{\sum}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}))\tag{式23} p(x)=(2π)n/21/21exp(21(xμ)T1(xμ))(23)
其中, μ ∈ R K \boldsymbol{\mu}\in{\mathbb{R}^K} μRK为多元正态分布的均值向量, ∑ ∈ R K × K \boldsymbol{\sum}\in{\mathbb{R}^{K\times{K}}} RK×K为多元正态分布的协方差矩阵, ∣ ∑ ∣ |\boldsymbol{\sum}| 为行列式。

(2)各项同性高斯分布

如果一个多元高斯分布的协方差矩阵简化为 ∑ = σ 2 I \boldsymbol{\sum}=\sigma^2\boldsymbol{I} =σ2I,即每一个维度随机变量都独立而且方差相同。那么这个多元高斯分布就称为:各项同性高斯分布。

(3)狄利克雷分布

一个 K K K维随机向量 X \boldsymbol{X} X的狄利克雷分布为:
p ( x ∣ α ) = Γ ( α 0 ) Γ ( α 1 ) ⋯ Γ ( α k ) ∏ k = 1 K x k α k − 1 (式24) p(\boldsymbol{x}|\boldsymbol{\alpha})=\cfrac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_k)}\prod_{k=1}^{K}x_k^{\alpha_{k-1}}\tag{式24} p(xα)=Γ(α1)Γ(αk)Γ(α0)k=1Kxkαk1(24)
其中的 α = [ α 1 , ⋯   , α k ] T \boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_k]^T α=[α1,,αk]T为狄利克雷分布的参数。

2.3 边际分布

对于二维离散随机向量 ( X , Y ) (X,Y) (X,Y),假设 X X X取值空间为 Ω x \Omega_x Ωx, Y Y Y取值空间为 Ω y \Omega_y Ωy,则其联合概率分布满足:
p ( x , y ) ≥ 0 , ∑ x ∈ Ω x ∑ y ∈ Ω y p ( x , y ) = 1 (式25) p(x,y)\ge0,\qquad{\sum_{x\in\Omega_x}\sum_{y\in{\Omega_y}}p(x,y)=1}\tag{式25} p(x,y)0,xΩxyΩyp(x,y)=1(25)
对于联合概率分布 p ( x , y ) p(x,y) p(x,y),分别对 x x x y y y进行求和。

(1)对于固定的 x x x:
∑ y ∈ Ω y p ( x , y ) = p ( x ) (式26) \sum_{y\in\Omega_y}p(x,y)=p(x)\tag{式26} yΩyp(x,y)=p(x)(26)
(2)对于固定的 y y y:
∑ x ∈ Ω x p ( x , y ) = p ( y ) (式27) \sum_{x\in\Omega_x}p(x,y)=p(y)\tag{式27} xΩxp(x,y)=p(y)(27)
由于离散随机向量 ( X , Y ) (X,Y) (X,Y)的联合概率分布,对 Y Y Y的所有值进行求和得到 X X X的概率分布,对 X X X的所有值进行求和得到 Y Y Y的概率分布.这里 p ( x ) 和 p ( y ) p(x)和p(y) p(x)p(y)就称为 p ( x , y ) p(x,y) p(x,y)边际分布

对于二维连续随机向量 ( X , Y ) (X,Y) (X,Y),其边际分布为:
p ( x ) = ∫ − ∞ + ∞ p ( x , y ) d y (式28) p(x)=\int_{-\infty}^{+\infty}p(x,y)dy\tag{式28} p(x)=+p(x,y)dy(28)

p ( y ) = ∫ − ∞ + ∞ p ( x , y ) d x (式29) p(y)=\int_{-\infty}^{+\infty}p(x,y)dx\tag{式29} p(y)=+p(x,y)dx(29)

对于一个二元正态分布的边际分布任然为正态分布。

2.4 条件概率分布

对于离散随机向量 ( X , Y ) (X,Y) (X,Y),已知 X = x X=x X=x的条件下,随机变量 Y = y Y=y Y=y的条件概率为:
p ( y ∣ x ) : = P ( Y = y ∣ X = x ) = p ( x , y ) p ( x ) (式30) p(y|x):=P(Y=y|X=x)=\cfrac{p(x,y)}{p(x)}\tag{式30} p(yx):=P(Y=yX=x)=p(x)p(x,y)(30)
上式定义了随机变量 Y Y Y关于随机变量 X X X的条件概率分布,简称:条件分布

已知 x x x:
p ( y ∣ x ) = p ( x , y ) p ( x ) (式31) p(y|x)=\cfrac{p(x,y)}{p(x)}\tag{式31} p(yx)=p(x)p(x,y)(31)
已知 y y y:
p ( x ∣ y ) = p ( x , y ) p ( y ) (式32) p(x|y)=\cfrac{p(x,y)}{p(y)}\tag{式32} p(xy)=p(y)p(x,y)(32)

2.5 贝叶斯定理

通过 ( 式 31 ) 和 ( 式 32 ) (式31)和(式32) (31)(32),两个条件概率 p ( x ∣ y ) 和 p ( y ∣ x ) p(x|y)和p(y|x) p(xy)p(yx)之间的关系为:
p ( y ∣ x ) = p ( x ∣ y ) p ( y ) p ( x ) (式33) p(y|x)=\cfrac{p(x|y)p(y)}{p(x)}\tag{式33} p(yx)=p(x)p(xy)p(y)(33)
这个公式就是贝叶斯定理,或者说是贝叶斯公式。

2.6 独立与条件独立

对于两个离散(或者连续)的随机变量 X 和 Y X和Y XY,如果其联合概率(或者联合概率密度函数)满足:
p ( x , y ) = p ( x ) p ( y ) (式34) p(x,y)=p(x)p(y)\tag{式34} p(x,y)=p(x)p(y)(34)
就称 X 和 Y X和Y XY相互独立。

对于三个离散(或者连续)随机变量 X , Y 和 Z X,Y和Z X,YZ,如果条件概率(或者联合概率密度函数) p ( x , y ∣ z ) p(x,y|z) p(x,yz)满足:
p ( x , y ∣ z ) = p ( x ∣ z ) p ( y ∣ z ) (式35) p(x,y|z)=p(x|z)p(y|z)\tag{式35} p(x,yz)=p(xz)p(yz)(35)
则称,在给定变量 Z Z Z时, X 和 Y X和Y XY条件独立。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值