深度学习-必备的数学知识-概率论4

深度学习

必备的数学知识

概率论

我们将接着上一篇文章继续讲解。
在接下来的文章中,将会把随机变量本身写作大写字母,随机变量的值写作小写字母。

期望、方差和协方差

期望(expectation)是指随机变量X所有可能取值的平均或期望值。期望可以看作随机变量的中心或平均位置。换句话说期望是随机变量可能取值的加权平均,权重就是每个值的概率。
对于离散型随机变量,其期望 E [ X ] \mathbb{E}[X] E[X]定义为
E [ X ] = ∑ x x P ( X ) \mathbb{E}[X]=\sum_{x} xP(X) E[X]=xxP(X)
其中 x x x x x x所有可能取值, P ( x ) P(x) P(x) X X X取值 x x x的概率
对于连续性随机变量,其期望 E [ X ] \mathbb{E}[X] E[X]定义为
E [ X ] = ∫ x P ( X ) d x \mathbb{E}[X]=\int xP(X) dx E[X]=xP(X)dx
其中 x x x x x x所有可能取值, P ( x ) P(x) P(x) X X X质量密度函数。
我们还可以扩展到更一般的情况。函数 f ( x ) f(x) f(x)关于离散型随机变量X的概率分布 P ( x ) P(x) P(x)的期望或期望值:
E X ∼ P [ f ( x ) ] = ∑ x f ( x ) P ( x ) \mathbb{E}_{X \sim P} [f(x)]=\sum_{x} f(x)P(x) EXP[f(x)]=xf(x)P(x)
这是当x有P产生,函数 f ( x ) f(x) f(x)作用于x时,f(x)的平均值。
对于连续性随机变量有
E X ∼ P [ f ( x ) ] = ∫ f ( x ) P ( x ) d x \mathbb{E}_{X \sim P} [f(x)]=\int f(x)P(x)dx EXP[f(x)]=f(x)P(x)dx
当我们在上下文中指明概率分布时,我们可以简写期望为 E x [ f ( x ) ] \mathbb{E}_x[f(x)] Ex[f(x)]。如果随机变量也明确指出,我们也可以省略随机变量: E [ f ( x ) ] \mathbb{E}[f(x)] E[f(x)]。默认着,我们假设 E [ ⋅ ] \mathbb{E}[\cdot] E[]表示对方括号内的所有随机变量的值求平均。类似的,当没有歧义时,方括号也可以省略。

期望是线性的,我们有
E X [ α f ( x ) + β g ( x ) ] = α E X [ f ( x ) ] + β E X [ g ( x ) ] \mathbb{E}_{X}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E}_{X}[ f(x)]+\beta \mathbb{E}_{X}[g(x)] EX[αf(x)+βg(x)]=αEX[f(x)]+βEX[g(x)]
其中 α \alpha α β \beta β不依赖于x
这是由期望的性质直接推导出来的。
假设X是离散型随机变量,我们有
E X [ α f ( x ) + β g ( x ) ] = ∑ x ( α f ( x ) + β g ( x ) ) P ( x ) E X [ α f ( x ) + β g ( x ) ] = ∑ x α f ( x ) P ( x ) + β g ( x ) P ( x ) \mathbb{E}_{X}[\alpha f(x)+\beta g(x)]=\sum_{x} (\alpha f(x)+\beta g(x))P(x)\\ \mathbb{E}_{X}[\alpha f(x)+\beta g(x)]=\sum_{x} \alpha f(x)P(x)+\beta g(x)P(x)\\ EX[αf(x)+βg(x)]=x(αf(x)+βg(x))P(x)EX[αf(x)+βg(x)]=xαf(x)P(x)+βg(x)P(x)
我们可以将求和符号 ∑ \sum 分配到每一项,得到:
E X [ α f ( x ) + β g ( x ) ] = α ∑ x f ( x ) P ( x ) + β ∑ x g ( x ) P ( x ) = α E X [ f ( x ) ] + β E X [ g ( x ) ] \mathbb{E}_{X}[\alpha f(x)+\beta g(x)]=\alpha \sum_{x} f(x)P(x)+ \beta\sum_{x} g(x)P(x)\\ =\alpha \mathbb{E}_{X}[ f(x)]+\beta \mathbb{E}_{X}[g(x)] EX[αf(x)+βg(x)]=αxf(x)P(x)+βxg(x)P(x)=αEX[f(x)]+βEX[g(x)]
方差(variance)是衡量随机变量或一组数据的离散程度的度量。它描述的是随机变量的波动程度。

对于随机变量X,它的方差定义为
V a r ( X ) = E [ ( x − E [ X ] ) 2 ] Var(X)=\mathbb{E}[(x-\mathbb{E}[X])^2] Var(X)=E[(xE[X])2]

类似的,方差也可以用来衡量当我们对X依据它的概率分布进行采样时,对于作用于随机变量X的函数 f ( x ) f(x) f(x)的函数值呈现多大的差异
V a r ( X ) = E [ f ( x ) − E [ f ( X ) ] ) 2 ] Var(X)=\mathbb{E}[f(x)-\mathbb{E}[f(X)])^2] Var(X)=E[f(x)E[f(X)])2]
如果方差很小,则 f ( x ) f(x) f(x)形成的簇(一组相似的数据点的集合。)比较接近它们的期望值。方差的平方根被称为标准差(stan-dard deviation)。

协方差(covariance)在某种意义上给出了两个变量之间的线性相关性的强度以及这些变量的尺度。对于两个随机变量 X X X Y Y Y,它们的协方差定义为:
C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] Cov(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] Cov(X,Y)=E[(XE[X])(YE[Y])]
这个公式的含义是:首先计算 X X X Y Y Y各自与其期望的差,然后将这两个差的乘积作为新的随机变量,最后计算这个新随机变量的期望。这个期望就是 X X X Y Y Y的协方差。

我们也可以表示为
C o v ( f ( x ) , g ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( x ) − E [ g ( x ) ] ) ] Cov(f(x),g(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(x)-\mathbb{E}[g(x)])] Cov(f(x),g(x))=E[(f(x)E[f(x)])(g(x)E[g(x)])]

协方差的值可以是正的、负的或零。正协方差表示 X X X Y Y Y倾向于同时增大或减小,负协方差表示 X X X Y Y Y倾向于在一个增大时另一个减小,协方差为零表示 X X X Y Y Y之间没有线性关系。

协方差的绝对值如果很大,则意味着变量值变化很大,并且它们同时距离各自的均值很远。

随机向量 x ∈ R n \mathbf{x} \in R^{n} xRn的协方差矩阵(covariance matrix)是一个 n × n n \times n n×n的对称矩阵,并且满足
C o v ( x ) i , j = C o v ( x i , x j ) Cov(\mathbf{x})_{i,j}=Cov(x_i,x_j) Cov(x)i,j=Cov(xi,xj)
协方差矩阵的对角元素是各个随机变量的方差
C o v ( x i , x i ) = V a r ( x i ) Cov(x_i,x_i)=Var(x_i) Cov(xi,xi)=Var(xi)
非对角元素是各对随机变量的协方差。这个矩阵提供了一种描述多个随机变量之间关系的方式。
如有问题,恳请指正

  • 25
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值