数学基础
矩阵
矩阵的基础知识
-
矩阵:矩阵式一个二位数组,每一个元素可以通过行+列索引获得
-
张量:通常高纬度的数据都将张量。
- 0阶:标量
- 1阶:矢量
- 2阶:矩阵
- 3阶或以上:张量
-
矩阵的秩:矩阵列向量中的极大线性无关组的数目,记作rank(A)
-
矩阵的逆
- 若矩阵A为方阵,当range(A)<n,称A为奇异矩阵或不可逆矩阵;
- 若矩阵A为方阵,当range(A)=n,称A为奇异矩阵或不可逆矩阵;
矩阵的逆可以记作
A − 1 A^{-1} A−1
其中则有
A A − 1 = A − 1 A = I n AA^{-1}=A^{-1}A=I_n AA−1=A−1A=In -
矩阵的广义逆矩阵
- 如果矩阵不为方阵或者是奇异矩阵,不存在逆矩阵,但是可以计算其广义逆矩阵或者伪逆矩阵;
- 对于矩阵A,如果存在矩阵 B使得 ABA=A,则称 B 为 A的广义逆矩阵。
概率统计
随机变量
随机变量是随机时间的数量体现,其可以是离散的或者连续的。
-
离散随机变量是指拥有有限个或者可列无限多个状态的随机变量,比如抛硬币的概率P(x=1)=0.5
-
连续随机变量是指变量值不可随机列举出来的随机变量,一般取实数值,比如射箭中靶概率P
常见的概率分布
伯努利分布
- 伯努利试验:只可能有两种结果的单次随机实验
- 它属于离散随机变量的分布,称为0-1分布
- 其概率公式
KaTeX parse error: No such environment: gather* at position 8: \begin{̲g̲a̲t̲h̲e̲r̲*̲}̲ P(x=1) = p\\ P…
二项分布
-
二项分布即重复n次伯努利试验,各试验之间都相互独立
-
如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
P ( x = k ) = C n k p k ( 1 − p ) n − k P(x=k)=C^{k}_{n}p^{k}(1-p)^{n-k} P(x=k)=Cnkpk(1−p)n−k
均匀分布
均匀分布,又称矩形分布,在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义。
P
(
x
)
=
1
b
−
a
,
a
<
x
<
b
P(x)=\frac{1}{b-a},a<x<b
P(x)=b−a1,a<x<b
高斯分布
又称为正态分布,是最常用的一种分布,由均值与标准差来决定其分布形状
P
(
x
)
=
1
2
π
e
−
(
x
−
μ
)
2
2
σ
2
P(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
P(x)=2π1e−2σ2(x−μ)2
指数分布
常用来表示独立随机事件发生的时间间隔的指数分布概率密度,指数分布重要特征是无记忆性。
P
(
x
)
=
λ
e
−
λ
x
P(x)=\lambda e^{-\lambda x}
P(x)=λe−λx
多变量概率分布
多条件概率
事件X在事件Y发生的条件下发生的概率,P(X|Y)
联合概率
事件X和事件Y同时发生的概率,P(X,Y)
其与多条件概率的性质有:
P
(
Y
∣
X
)
=
P
(
Y
,
X
)
P
(
X
)
P(Y|X)=\frac{P(Y,X)}{P(X)}
P(Y∣X)=P(X)P(Y,X)
先验概率
根据以往经验在事件发生前所预知的概率分布
后验概率
指得到结果信息后重新修正的概率。也就是基于新的信息,修正后台先验概率的分布,从而更接近实际情况。比如口袋摸球实验,通过不断的摸球去调整红色球发生的概率
全概率公式
假设P(A) >0,则有
P
(
B
)
=
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
P(B) = \sum^n_{i=1}P(A_i)P(B|A_i)
P(B)=i=1∑nP(Ai)P(B∣Ai)
贝叶斯公式
贝叶斯公式是全概率公式的延申
P
(
A
i
∣
B
)
=
P
(
B
∣
A
i
)
P
(
A
i
)
P
(
B
)
=
P
(
B
∣
A
i
)
P
(
A
i
)
∑
j
=
1
n
P
(
A
i
)
P
(
B
∣
A
j
)
P(A_i|B) = \frac{P(B|A_i)P(A_i)}{P(B)}=\frac{P(B|A_i)P(A_i)}{\sum^n_{j=1}P(A_i)P(B|A_j)}
P(Ai∣B)=P(B)P(B∣Ai)P(Ai)=∑j=1nP(Ai)P(B∣Aj)P(B∣Ai)P(Ai)
常用统计量
方差
常用于衡量随机变量与数学期望的偏离程度
V
a
r
(
x
)
=
E
{
[
x
−
E
(
x
)
]
2
}
=
E
(
x
2
)
−
[
E
(
x
)
]
2
Var(x)=E\{[x-E(x)]^2\}=E(x^2)-[E(x)]^2
Var(x)=E{[x−E(x)]2}=E(x2)−[E(x)]2
协方差
衡量两个随机变量X和Y直接的总体误差
C
o
v
(
X
,
Y
)
=
E
{
[
x
−
E
(
x
)
]
[
y
−
E
(
y
)
]
}
=
E
(
x
y
)
−
E
(
X
)
E
(
y
)
Cov(X,Y)=E\{[x-E(x)][y-E(y)]\}=E(xy)-E(X)E(y)
Cov(X,Y)=E{[x−E(x)][y−E(y)]}=E(xy)−E(X)E(y)
信息论
熵
信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
l
o
g
2
P
(
x
i
)
H(X)=-\sum^n_{i=1}P(x_i)log_2P(x_i)
H(X)=−i=1∑nP(xi)log2P(xi)
值得注意的是,H(X)的值越小,则X的纯度越高,蕴含的不确定性越少
联合熵
两个随机变量X和Y的联合分布可以形成联合熵,度量二维样本的不确定性
H
(
x
,
y
)
=
−
∑
i
=
1
n
∑
j
=
1
n
P
(
x
i
,
y
j
)
l
o
g
2
P
(
x
i
,
y
j
)
H(x,y)=-\sum^n_{i=1}\sum^n_{j=1}P(x_i,y_j)log_2P(x_i,y_j)
H(x,y)=−i=1∑nj=1∑nP(xi,yj)log2P(xi,yj)
条件熵
在随机变量X发生的前提下,Y带来的熵
H
(
Y
∣
X
)
=
∑
i
=
1
n
P
(
x
i
)
H
(
Y
∣
X
=
x
i
)
=
−
∑
i
=
1
n
P
(
x
i
)
∑
j
=
1
n
P
(
y
i
∣
x
i
)
l
o
g
2
P
(
y
j
∣
x
i
)
=
−
∑
i
=
1
n
∑
j
=
1
n
P
(
x
i
,
y
i
)
l
o
g
2
P
(
y
i
∣
x
i
)
H(Y|X)=\sum^n_{i=1}P(x_i)H(Y|X=x_i)=-\sum^n_{i=1}P(x_i)\sum^n_{j=1}P(y_i|x_i)log_2P(y_j|x_i)=-\sum^n_{i=1}\sum^n_{j=1}P(x_i,y_i)log_2P(y_i|x_i)
H(Y∣X)=i=1∑nP(xi)H(Y∣X=xi)=−i=1∑nP(xi)j=1∑nP(yi∣xi)log2P(yj∣xi)=−i=1∑nj=1∑nP(xi,yi)log2P(yi∣xi)
其中熵、联合熵、条件熵之间的关系有
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
H(Y|X)=H(X,Y)-H(X)
H(Y∣X)=H(X,Y)−H(X)
互信息
指H(X|Y)与H(Y|X)的交集
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
I(X;Y)=H(X)+H(Y)-H(X,Y)
I(X;Y)=H(X)+H(Y)−H(X,Y)
相对熵
相对熵又称为KL散度,是描述两个概率分布P和Q差异的一种方法,记作D(P||Q)。在信息论中,D(P||Q)表示用概率分布Q来拟合真实分布P时,产生的信息表达的损耗,其中P表示信源的真实分布,Q表示P的近似分布。
KaTeX parse error: No such environment: gather* at position 8: \begin{̲g̲a̲t̲h̲e̲r̲*̲}̲ 离散形式:D(P||Q)=\…
交叉熵
通常用它来衡量目标值与预测值之间的差距,是深度学习中最常用的一种损失函数度量。比如在对抗生成网络中
D
(
P
∣
∣
Q
)
=
∑
P
(
x
)
l
o
g
P
(
x
)
Q
(
x
)
=
∑
P
(
x
)
l
o
g
P
(
x
)
−
∑
P
(
x
)
l
o
g
Q
(
x
)
=
−
H
(
P
(
x
)
)
−
∑
P
(
x
)
l
o
g
Q
(
x
)
D(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}=\sum P(x)logP(x)-\sum P(x)logQ(x)=-H(P(x))-\sum P(x)logQ(x)
D(P∣∣Q)=∑P(x)logQ(x)P(x)=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))−∑P(x)logQ(x)
交叉熵
H
(
P
,
Q
)
=
−
∑
P
(
x
)
l
o
g
Q
(
x
)
H(P,Q)=-\sum P(x)logQ(x)
H(P,Q)=−∑P(x)logQ(x)
最优化估计
最小二乘估计
最小二乘是通过最小化误差的平方和寻找数据的最佳函数匹配,常用于回归为题中。

被折叠的 条评论
为什么被折叠?



