深度学习基础 - 数学期望、方差、标准差、协方差、协方差矩阵
flyfish 笔记
数学期望(均值)
数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一。它反映随机变量平均取值的大小
E
(
X
)
=
∑
k
=
1
∞
x
k
×
p
k
E(X)=\sum_{k=1}^{\infty}x_k \times p_k
E(X)=∑k=1∞xk×pk
x
k
x_k
xk :表示观察到随机变量X的样本的值。
p
k
p_k
pk: 表示
x
k
x_k
xk发生的概率。
假设有这样的一组数(一共10个数,5个1 ,4个2,1个3)
1,1,1,1,1,2,2,2,2,3
如果按照数学期望是这样求值
5
10
×
1
+
4
10
×
2
+
1
10
×
3
\frac{\mathrm{5}}{\mathrm{10}}\times 1 + \frac{\mathrm{4}}{\mathrm{10}}\times 2 + \frac{\mathrm{1}}{\mathrm{10}}\times 3
105×1+104×2+101×3
如果按照平均值这样求值得
1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 10 \frac{\mathrm{1+1+1+1+1+2+2+2+2+3}}{\mathrm{10}} 101+1+1+1+1+2+2+2+2+3
结果是一样的
μ
=
E
[
X
]
\mu=\mathrm{E}[X]
μ=E[X]
μ = 1 n ∑ i = 1 n x i \mu=\frac{1}{n} \sum_{i=1}^{n} x_{i} μ=n1i=1∑nxi
μ
=
∑
i
=
1
n
p
i
x
i
\mu=\sum_{i=1}^{n} p_{i} x_{i}
μ=i=1∑npixi
其他名字
expectation, mathematical expectation, EV, average, mean value, mean, first moment.
数学期望、均值,期望,物理学中称为期待值
在概率论和统计学中,一个离散性随机变量的期望值是试验中每次可能的结果乘以其结果概率的总和。
期望值像是随机试验在同样的机会下重复多次,所有那些可能状态平均的结果,便基本上等同“期望值”所期望的数。
期望值是该变量输出值的平均数。
期望值并不一定包含于变量的输出值集合里。
示例1
例如,掷一枚公平的六面骰子,其每次“点数”的期望值是3.5,计算如下:
E
[
X
]
=
1
⋅
1
6
+
2
⋅
1
6
+
3
⋅
1
6
+
4
⋅
1
6
+
5
⋅
1
6
+
6
⋅
1
6
=
3.5.
\operatorname {E} [X]=1\cdot {\frac {1}{6}}+2\cdot {\frac {1}{6}}+3\cdot {\frac {1}{6}}+4\cdot {\frac {1}{6}}+5\cdot {\frac {1}{6}}+6\cdot {\frac {1}{6}}=3.5.
E[X]=1⋅61+2⋅61+3⋅61+4⋅61+5⋅61+6⋅61=3.5.
不过如上所说明的,3.5虽是“点数”的期望值,但却不属于可能结果中的任一个,没有可能掷出此点数。
示例2
一副扑克牌共52张牌,其中有4个A。规则是如果X抽中了A,那么Y给X 10元钱,否则X就输给Y 1元钱。在这个游戏中,抽中的概率是
1
13
(
4
52
)
\frac{1}{13} (\frac{4}{52} )
131(524),结果是赢10元钱;抽不中概率是
12
13
\frac{12}{13}
1312,结果是亏1元钱。那么X赢的概率,也就是期望值是
−
2
13
-\frac{2}{13}
−132。这样X平均每把会亏
−
2
13
-\frac{2}{13}
−132元
就像即抛出正面赢一块钱,抛反面输一块钱,如果你抛了无穷大的次数,期望就成了0。
wiki示例
赌博是期望值的一种常见应用。例如,美国的轮盘中常用的轮盘上有38个数字,每一个数字被选中的概率都是相等的。赌注一般押在其中某一个数字上,如果轮盘的输出值和这个数字相等,那么下赌者可以将相当于赌注35倍的奖金(原注不包含在内),若输出值和下压数字不同,则赌注就输掉了。考虑到38种所有的可能结果,然后这里我们的设定的期望目标是“赢钱”,则因此,讨论赢或输两种预想状态的话,以1美元赌注押一个数字上,则获利的期望值为:赢的“概率38分之1,能获得35元”,加上“输1元的情况37种”,结果约等于-0.0526美元。也就是说,平均起来每赌1美元就会输掉5美分,即美式轮盘以1美元作赌注的期望值为 负0.0526美元。
E
[
gain from
$
1
bet
]
=
−
$
1
⋅
37
38
+
$
35
⋅
1
38
=
−
$
0.0526.
{ {E} [\,{\text{gain from }}\$1{\text{ bet}}\,]=-\$1\cdot {\frac {37}{38}}+\$35\cdot {\frac {1}{38}}=-\$0.0526.}
E[gain from $1 bet]=−$1⋅3837+$35⋅381=−$0.0526.
离散型随机变量的数学期望
E
(
X
)
=
∑
i
p
i
x
i
E(X)=\sum_{i}{}{p_i x_i}
E(X)=∑ipixi
E [ X ] = ∑ i = 1 ∞ x i p i {\displaystyle \operatorname {E} [X]=\sum _{i=1}^{\infty }x_{i}\,p_{i}} E[X]=i=1∑∞xipi
连续型随机变量的数学期望
E
[
X
]
=
∫
R
x
f
(
x
)
d
x
.
{\displaystyle \operatorname {E} [X]=\int _{\mathbb {R} }xf(x)\,dx.}
E[X]=∫Rxf(x)dx.
针对于连续的随机变量的,与离散随机变量的期望值的算法同出一辙,由于输出值是连续的,所以把求和改成了积分。
方差
方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度
D
(
X
)
=
V
a
r
(
X
)
=
E
{
[
X
−
E
(
X
)
]
2
}
D(X)=Var(X)=E\{[X-E(X)]^2\}
D(X)=Var(X)=E{[X−E(X)]2}
X :表示随机变量。
E(X) : 表示X的期望。
D(X) : 是每个样本值与全体样本值的平均数之差的平方值的平均数。
下面是不同的表达式表达同一个东西
Var
(
X
)
=
E
[
(
X
−
μ
)
2
]
\operatorname{Var}(X)=\mathrm{E}\left[(X-\mu)^{2}\right]
Var(X)=E[(X−μ)2]
Var
(
X
)
=
(
∑
i
=
1
n
p
i
x
i
2
)
−
μ
2
\operatorname{Var}(X)=\left(\sum_{i=1}^{n} p_{i} x_{i}^{2}\right)-\mu^{2}
Var(X)=(i=1∑npixi2)−μ2
Var
(
X
)
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
\operatorname{Var}(X)=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}
Var(X)=n1i=1∑n(xi−μ)2
例如运动员打把从甲、乙、丙三位射击运动员中选拔一名参加比赛,
在预赛中,他们每人各打10发子弹,命中的环数如下:
甲:10 10 9 10 9 9 9 9 9 9
乙:10 10 10 9 10 8 8 10 10 8
丙:10 9 8 10 8 9 10 9 9 9
根据这次成绩,应该派谁去参赛?
我们来判断谁的成绩更好,这个“好”是怎么定义的
1 可以计算总环数 或者 平均数
我们这里计算平均数甲、乙、丙分别是 9.3, 9.3, 9.1
丙淘汰,甲乙再怎么比较呢?就是计算方差
s 1 2 = 1 10 [ ( 10 − 9.3 ) 2 + ( 10 − 9.3 ) 2 + ⋯ + ( 9 − 93 ) 2 ] = 0.21 s_{1}^{2}=\frac{1}{10}\left[(10-9.3)^{2}+(10-9.3)^{2}+\cdots+(9-93)^{2}\right]=0.21 s12=101[(10−9.3)2+(10−9.3)2+⋯+(9−93)2]=0.21
s 2 2 = 1 10 [ ( 10 − 9.3 ) 2 + ( 10 − 93 ) 2 + ⋯ + ( 8 − 9.3 ) 2 ] = 0.81 s_{2}^{2}=\frac{1}{10}\left[(10-9.3)^{2}+(10-93)^{2}+\cdots+(8-9.3)^{2}\right]=0.81 s22=101[(10−9.3)2+(10−93)2+⋯+(8−9.3)2]=0.81
甲的方差比较小,也就是数据波动小,成绩稳定,所以选甲
标 准 差 = 方 差 标准差 = \sqrt{方差} 标准差=方差
这样其实还要分离散随机变量(Discrete random variable)和连续随机变量(Continuous random variable)
上面的式子表达的是离散随机变量。
如果是连续随机变量就是下面的表达式
Var
(
X
)
=
σ
2
=
∫
(
x
−
μ
)
2
f
(
x
)
d
x
=
∫
x
2
f
(
x
)
d
x
−
2
μ
∫
x
f
(
x
)
d
x
+
∫
μ
2
f
(
x
)
d
x
=
∫
x
2
d
F
(
x
)
−
2
μ
∫
x
d
F
(
x
)
+
μ
2
∫
d
F
(
x
)
=
∫
x
2
d
F
(
x
)
−
2
μ
⋅
μ
+
μ
2
⋅
1
=
∫
x
2
d
F
(
x
)
−
μ
2
\begin{aligned} \operatorname{Var}(X)=\sigma^{2} &=\int(x-\mu)^{2} f(x) d x \\ &=\int x^{2} f(x) d x-2 \mu \int x f(x) d x+\int \mu^{2} f(x) d x \\ &=\int x^{2} d F(x)-2 \mu \int x d F(x)+\mu^{2} \int d F(x) \\ &=\int x^{2} d F(x)-2 \mu \cdot \mu+\mu^{2} \cdot 1 \\ &=\int x^{2} d F(x)-\mu^{2} \end{aligned}
Var(X)=σ2=∫(x−μ)2f(x)dx=∫x2f(x)dx−2μ∫xf(x)dx+∫μ2f(x)dx=∫x2dF(x)−2μ∫xdF(x)+μ2∫dF(x)=∫x2dF(x)−2μ⋅μ+μ2⋅1=∫x2dF(x)−μ2
这 是 另 一 种 方 式 : μ = ∫ x f ( x ) d x = ∫ x d F ( x ) 这是另一种方式: \mu=\int x f(x) d x=\int x d F(x) 这是另一种方式:μ=∫xf(x)dx=∫xdF(x)
Var
(
X
)
=
∫
x
2
f
(
x
)
d
x
−
μ
2
\operatorname{Var}(X)=\int x^{2} f(x) d x-\mu^{2}
Var(X)=∫x2f(x)dx−μ2
标准差
σ
(
X
)
=
D
(
X
)
\sigma(X)=\sqrt{D(X)}
σ(X)=D(X)
D(X) : 表示随机变量X的方差。
协方差
前面探讨单个随机变量,往往事物的属性是多维,例如2维情况,形式如:(X,Y)
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
C
o
v
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
Cov(X,Y)=E(XY)-E(X)E(Y)
Cov(X,Y)=E(XY)−E(X)E(Y)
D
(
X
+
Y
)
=
D
(
X
)
+
D
(
Y
)
+
2
C
o
v
(
X
,
Y
)
D(X+Y) = D(X)+D(Y)+2Cov(X,Y)
D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
例如一个学生的数学与物理的成绩
数学分数越高,同时物理分数越高,说明两个变量是同向变化的,协方差为正,叫正相关
数学分数越高,同时物理分数越低,说明两个变量是反向变化的,协方差为负,叫负相关
数学分数变化,物理分数永远是满分不变,说明两个变量没关系,协方差为0 ,叫不具有相关性
假设求
Cov
[
X
,
Y
]
\operatorname{Cov}[X, Y]
Cov[X,Y]
(
X
,
Y
)
=
(
−
6
,
−
7
)
,
(
8
,
−
5
)
,
(
−
4
,
7
)
,
(
10
,
9
)
(X, Y)=(-6,-7),(8,-5),(-4,7),(10,9)
(X,Y)=(−6,−7),(8,−5),(−4,7),(10,9)
协方差
先求期望值
μ
≡
E
[
X
]
=
∑
i
i
P
(
X
=
i
)
=
(
−
6
)
⋅
1
4
+
8
⋅
1
4
+
(
−
4
)
⋅
1
4
+
10
⋅
1
4
=
2
ν
≡
E
[
Y
]
=
∑
j
j
P
(
Y
=
j
)
=
(
−
7
)
⋅
1
4
+
(
−
5
)
⋅
1
4
+
7
⋅
1
4
+
9
⋅
1
4
=
1
\begin{aligned} \mu & \equiv \mathrm{E}[X]=\sum_{i} i \mathrm{P}(X=i)=(-6) \cdot \frac{1}{4}+8 \cdot \frac{1}{4}+(-4) \cdot \frac{1}{4}+10 \cdot \frac{1}{4}=2 \\ \nu & \equiv \mathrm{E}[Y]=\sum_{j} j \mathrm{P}(Y=j)=(-7) \cdot \frac{1}{4}+(-5) \cdot \frac{1}{4}+7 \cdot \frac{1}{4}+9 \cdot \frac{1}{4}=1 \end{aligned}
μν≡E[X]=i∑iP(X=i)=(−6)⋅41+8⋅41+(−4)⋅41+10⋅41=2≡E[Y]=j∑jP(Y=j)=(−7)⋅41+(−5)⋅41+7⋅41+9⋅41=1
再求协方差
Cov
[
X
,
Y
]
=
E
[
(
X
−
2
)
(
Y
−
1
)
]
=
(
−
6
−
2
)
(
−
7
−
1
)
⋅
1
4
+
(
8
−
2
)
(
−
5
−
1
)
⋅
1
4
+
(
−
4
−
2
)
(
7
−
1
)
⋅
1
4
+
(
10
−
2
)
(
9
−
1
)
⋅
1
4
=
14
\begin{array}{l}{\operatorname{Cov}[X, Y]=\mathrm{E}[(X-2)(Y-1)]} \\ {=(-6-2)(-7-1) \cdot \frac{1}{4}+(8-2)(-5-1) \cdot \frac{1}{4}+(-4-2)(7-1) \cdot \frac{1}{4}+(10-2)(9-1) \cdot \frac{1}{4}} \\ {=14}\end{array}
Cov[X,Y]=E[(X−2)(Y−1)]=(−6−2)(−7−1)⋅41+(8−2)(−5−1)⋅41+(−4−2)(7−1)⋅41+(10−2)(9−1)⋅41=14
协方差矩阵
协方差在于探索随机变量之间的关系。协方差矩阵计算的是不同维度之间的协方差
对多维随机变量
X
=
[
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
]
T
\textbf X=[X_1, X_2, X_3, ..., X_n]^T
X=[X1,X2,X3,...,Xn]T,我们往往需要计算各维度两两之间的协方差,这样各协方差组成了一个
n
×
n
n×n
n×n的矩阵,称为协方差矩阵。协方差矩阵是个对称矩阵,对角线上的元素是各维度上随机变量的方差。我们定义协方差矩阵为Σ,这个符号与求和∑相同,需要根据上下文区分。矩阵内的元素
Σ
i
j
\Sigma_{ij}
Σij为
Σ
i
j
=
cov
(
X
i
,
X
j
)
=
E
[
(
X
i
−
E
[
X
i
]
)
(
X
j
−
E
[
X
j
]
)
]
\Sigma_{ij}=\operatorname{cov}(X_i,X_j)=\operatorname{E}\big[(X_i-\operatorname{E}[X_i])(X_j-\operatorname{E}[X_j])\big]
Σij=cov(Xi,Xj)=E[(Xi−E[Xi])(Xj−E[Xj])]
Σ
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
T
]
\Sigma=\operatorname{E}\big[(\textbf X-\operatorname{E}[\textbf X]\big)(\textbf X-\operatorname{E}[\textbf X])^T]
Σ=E[(X−E[X])(X−E[X])T]
=
[
cov
(
X
1
,
X
1
)
cov
(
X
1
,
X
2
)
⋯
cov
(
X
1
,
X
n
)
cov
(
X
2
,
X
1
)
cov
(
X
2
,
X
2
)
⋯
cov
(
X
2
,
X
n
)
⋮
⋮
⋱
⋮
cov
(
X
n
,
X
1
)
cov
(
X
n
,
X
2
)
⋯
cov
(
X
n
,
X
n
)
]
=\begin{bmatrix} \operatorname{cov}(X_1, X_1) & \operatorname{cov}(X_1, X_2) & \cdots & \operatorname{cov}(X_1, X_n) \\ \operatorname{cov}(X_2, X_1) & \operatorname{cov}(X_2, X_2) & \cdots & \operatorname{cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{cov}(X_n, X_1) & \operatorname{cov}(X_n, X_2) & \cdots & \operatorname{cov}(X_n, X_n) \end{bmatrix}
=⎣⎢⎢⎢⎡cov(X1,X1)cov(X2,X1)⋮cov(Xn,X1)cov(X1,X2)cov(X2,X2)⋮cov(Xn,X2)⋯⋯⋱⋯cov(X1,Xn)cov(X2,Xn)⋮cov(Xn,Xn)⎦⎥⎥⎥⎤
=
[
E
[
(
X
1
−
E
[
X
1
]
)
(
X
1
−
E
[
X
1
]
)
]
E
[
(
X
1
−
E
[
X
1
]
)
(
X
2
−
E
[
X
2
]
)
]
⋯
E
[
(
X
1
−
E
[
X
1
]
)
(
X
n
−
E
[
X
n
]
)
]
E
[
(
X
2
−
E
[
X
2
]
)
(
X
1
−
E
[
X
1
]
)
]
E
[
(
X
2
−
E
[
X
2
]
)
(
X
2
−
E
[
X
2
]
)
]
⋯
E
[
(
X
2
−
E
[
X
2
]
)
(
X
n
−
E
[
X
n
]
)
]
⋮
⋮
⋱
⋮
E
[
(
X
n
−
E
[
X
n
]
)
(
X
1
−
E
[
X
1
]
)
]
E
[
(
X
n
−
E
[
X
n
]
)
(
X
2
−
E
[
X
2
]
)
]
⋯
E
[
(
X
n
−
E
[
X
n
]
)
(
X
n
−
E
[
X
n
]
)
]
]
=\begin{bmatrix} \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_1-\operatorname{E}[X_1])\big] & \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_2-\operatorname{E}[X_2])\big] & \cdots & \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_n-\operatorname{E}[X_n])\big] \\ \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_1-\operatorname{E}[X_1])\big] & \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_2-\operatorname{E}[X_2])\big] & \cdots & \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_n-\operatorname{E}[X_n])\big] \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_1-\operatorname{E}[X_1])\big] & \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_2-\operatorname{E}[X_2])\big] & \cdots & \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_n-\operatorname{E}[X_n])\big] & \end{bmatrix}
=⎣⎢⎢⎢⎡E[(X1−E[X1])(X1−E[X1])]E[(X2−E[X2])(X1−E[X1])]⋮E[(Xn−E[Xn])(X1−E[X1])]E[(X1−E[X1])(X2−E[X2])]E[(X2−E[X2])(X2−E[X2])]⋮E[(Xn−E[Xn])(X2−E[X2])]⋯⋯⋱⋯E[(X1−E[X1])(Xn−E[Xn])]E[(X2−E[X2])(Xn−E[Xn])]⋮E[(Xn−E[Xn])(Xn−E[Xn])]⎦⎥⎥⎥⎤
还可以这样
X = [ X 1 ⋮ X n ] \mathbf {X} ={\begin{bmatrix}X_{1}\\\vdots \\X_{n}\end{bmatrix}} X=⎣⎢⎡X1⋮Xn⎦⎥⎤
Σ i j = c o v ( X i , X j ) = E [ ( X i − μ i ) ( X j − μ j ) ] = E [ X i X j ] − μ i μ j {\displaystyle \Sigma _{ij}=\mathrm {cov} (X_{i},X_{j})=\mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})(X_{j}-\mu _{j})\end{bmatrix}}=\mathrm {E} {\begin{bmatrix}X_{i}X_{j}\end{bmatrix}}-\mu _{i}\mu _{j}} Σij=cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]=E[XiXj]−μiμj
μ
i
=
E
(
X
i
)
\mu _{i}=\mathrm {E} (X_{i})
μi=E(Xi)
Σ
=
[
E
[
(
X
1
−
μ
1
)
(
X
1
−
μ
1
)
]
E
[
(
X
1
−
μ
1
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
1
−
μ
1
)
(
X
n
−
μ
n
)
]
E
[
(
X
2
−
μ
2
)
(
X
1
−
μ
1
)
]
E
[
(
X
2
−
μ
2
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
2
−
μ
2
)
(
X
n
−
μ
n
)
]
⋮
⋮
⋱
⋮
E
[
(
X
n
−
μ
n
)
(
X
1
−
μ
1
)
]
E
[
(
X
n
−
μ
n
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
n
−
μ
n
)
(
X
n
−
μ
n
)
]
]
.
\Sigma ={\begin{bmatrix}\mathrm {E} [(X_{1}-\mu _{1})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]\\\\\mathrm {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{2}-\mu _{2})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]\\\\\vdots &\vdots &\ddots &\vdots \\\\\mathrm {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{n}-\mu _{n})(X_{n}-\mu _{n})]\end{bmatrix}}.
Σ=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡E[(X1−μ1)(X1−μ1)]E[(X2−μ2)(X1−μ1)]⋮E[(Xn−μn)(X1−μ1)]E[(X1−μ1)(X2−μ2)]E[(X2−μ2)(X2−μ2)]⋮E[(Xn−μn)(X2−μ2)]⋯⋯⋱⋯E[(X1−μ1)(Xn−μn)]E[(X2−μ2)(Xn−μn)]⋮E[(Xn−μn)(Xn−μn)]⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤.
协方差的性质
cov
(
X
,
X
)
=
var
(
X
)
cov
(
X
,
Y
)
=
cov
(
Y
,
X
)
\begin{array}{l} \operatorname{cov}(X, X)=\operatorname{var}(X) \\ \operatorname{cov}(X, Y)=\operatorname{cov}(Y, X) \end{array}
cov(X,X)=var(X)cov(X,Y)=cov(Y,X)
二维协方差的样子
[
Cov
(
X
,
X
)
Cov
(
Y
,
X
)
Cov
(
X
,
Y
)
Cov
(
Y
,
Y
)
]
\left[\begin{array}{ll} \operatorname{Cov}(X, X) & \operatorname{Cov}(Y, X) \\ \operatorname{Cov}(X, Y) & \operatorname{Cov}(Y, Y) \end{array}\right]
[Cov(X,X)Cov(X,Y)Cov(Y,X)Cov(Y,Y)]
三维协方差的样子
[
cov
(
x
1
,
x
1
)
cov
(
x
1
,
x
2
)
cov
(
x
1
,
x
3
)
cov
(
x
2
,
x
1
)
cov
(
x
2
,
x
2
)
cov
(
x
2
,
x
3
)
cov
(
x
3
,
x
1
)
cov
(
x
3
,
x
2
)
cov
(
x
3
,
x
3
)
]
\left[\begin{array}{lll} \operatorname{cov}\left(x_{1}, x_{1}\right) & \operatorname{cov}\left(x_{1}, x_{2}\right) & \operatorname{cov}\left(x_{1}, x_{3}\right) \\ \operatorname{cov}\left(x_{2}, x_{1}\right) & \operatorname{cov}\left(x_{2}, x_{2}\right) & \operatorname{cov}\left(x_{2}, x_{3}\right) \\ \operatorname{cov}\left(x_{3}, x_{1}\right) & \operatorname{cov}\left(x_{3}, x_{2}\right) & \operatorname{cov}\left(x_{3}, x_{3}\right) \end{array}\right]
⎣⎡cov(x1,x1)cov(x2,x1)cov(x3,x1)cov(x1,x2)cov(x2,x2)cov(x3,x2)cov(x1,x3)cov(x2,x3)cov(x3,x3)⎦⎤