方差
功能: 又称为标准差或均方差,方差描述波动程度,表征数据分布的稳定性。
方差的描述
协方差
功能:协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
协方差的描述
协方差矩阵
功能:协方差矩阵就是多个随机变量之间的协方差的一种矩阵化表述,本质上它和n2个数字所蕴含的信息无任何区别,但是矩阵化语言的作用在于它能极大地减轻人类(也许计算机也是如此)做计算时的负担,同时也能非常清晰地揭示“一大堆杂乱无章的数字”所蕴含的内在线性结构。
协方差矩阵的描述
协方差矩阵计算描述
PCA(Principal Components Analysis)
功能:PCA是主成分分析(Principal Components Analysis)的简称。这是一种数据降维技术,用于数据预处理。一般我们获取的原始数据维度都很高,那么我们可以运用PCA算法降低特征维度。这样不仅可以去除无用的噪声,还能减少很大的计算量。
主成分分析是一种矩阵的压缩算法,在减少矩阵维数的同时尽可能的保留原矩阵的信息,简单来说就是将 n×m的矩阵转换成n×k的矩阵,仅保留矩阵中所存在的主要特性,从而可以大大节省空间和数据量
PCA描述
梯度
梯度是指多元函数中针对某一特定的点,求解在该点应变量变化最快的方向的矢量信息。
例:求解函数
f
(
x
1
,
x
2
,
x
3
)
=
4
x
1
4
+
2
x
2
2
−
x
3
f(x_1,x_2,x_3)=4x_1^4+2x_2^2-x_3
f(x1,x2,x3)=4x14+2x22−x3在点
(
3
,
5
,
6
)
(3,5,6)
(3,5,6)处的梯度信息。
解:
g
(
x
1
,
x
2
,
x
3
)
=
(
∂
f
∇
x
1
,
∂
f
∇
x
2
,
∂
f
∇
x
3
)
g
(
x
1
,
x
2
,
x
3
)
=
(
16
x
1
3
,
4
x
2
,
−
1
)
g(x_1,x_2,x_3)=(\frac{\partial f}{\nabla x_1},\frac{\partial f}{\nabla x_2},\frac{\partial f}{\nabla x_3})\\g(x_1,x_2,x_3)=(16x_1^3,4x_2,-1)
g(x1,x2,x3)=(∇x1∂f,∇x2∂f,∇x3∂f)g(x1,x2,x3)=(16x13,4x2,−1)将
(
3
,
5
,
6
)
(3,5,6)
(3,5,6)带入的该点的梯度信息为
g
(
3
,
5
,
6
)
=
(
48
,
20
,
−
1
)
g(3,5,6)=(48,20,-1)
g(3,5,6)=(48,20,−1)
直观理解 梯度(gradient)
雅可比
雅可比矩阵的重要性在于它体现了一个可微方程与给出点的最优线性逼近. 因此, 雅可比矩阵类似于多元函数的一阶导数。
在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式。
假设F: Rn→Rm是一个从欧式n维空间转换到欧式m维空间的函数。这个函数F由m个实函数组成: y1(x1,…,xn), …, ym(x1,…,xn)。这些函数的偏导数(如果存在)可以组成一个m行n列的矩阵, 这就是所谓的雅可比矩阵:
也就是说对于函数
f
(
y
1
,
y
2
,
y
3
,
⋯
,
y
m
)
f(y_1,y_2,y_3,\cdots,y_m)
f(y1,y2,y3,⋯,ym)中共有自变量
m
m
m个,且对于各个自变量
y
y
y都有
y
i
(
x
1
,
x
2
,
x
3
,
⋯
,
x
n
)
y_i(x_1,x_2,x_3,\cdots,x_n)
yi(x1,x2,x3,⋯,xn),即和
n
n
n个
x
x
x变量有关,因此,针对函数
f
(
)
f()
f()的雅可比矩阵形式为一个
m
∗
n
m*n
m∗n的矩阵:
(
∂
y
1
∂
x
1
∂
y
1
∂
x
2
∂
y
1
∂
x
3
⋯
∂
y
1
∂
x
n
∂
y
2
∂
x
1
∂
y
2
∂
x
2
∂
y
2
∂
x
3
⋯
∂
y
2
∂
x
n
⋮
⋮
⋮
⋮
⋮
∂
y
m
∂
x
1
∂
y
m
∂
x
2
∂
y
m
∂
x
3
⋯
∂
y
m
∂
x
n
)
m
n
\begin{pmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} &\frac{\partial y_1}{\partial x_3} & \cdots &\frac{\partial y_1}{\partial x_n}\\\\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} &\frac{\partial y_2}{\partial x_3} & \cdots &\frac{\partial y_2}{\partial x_n}\\ \vdots & \vdots & \vdots & \vdots &\vdots \\\\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} &\frac{\partial y_m}{\partial x_3} & \cdots &\frac{\partial y_m}{\partial x_n}\\ \end{pmatrix}_{mn}
⎝⎜⎜⎜⎜⎜⎜⎜⎜⎛∂x1∂y1∂x1∂y2⋮∂x1∂ym∂x2∂y1∂x2∂y2⋮∂x2∂ym∂x3∂y1∂x3∂y2⋮∂x3∂ym⋯⋯⋮⋯∂xn∂y1∂xn∂y2⋮∂xn∂ym⎠⎟⎟⎟⎟⎟⎟⎟⎟⎞mn
雅克比矩阵(Jacobian Matrix)的意义
对向量的求导和Jacobian矩阵的几何意义与Hessian矩阵
雅可比行列式的意义
Jacobian矩阵的理解
Hessian矩阵
在数学中, 海森矩阵(Hessian matrix或Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵, 此函数如下: f ( x 1 , x 2 , x 3 , ⋯ , x n ) f(x_1,x_2,x_3,\cdots ,x_n) f(x1,x2,x3,⋯,xn)对应的 H e s s i a n Hessian Hessian矩阵如下: ( ∂ f ∂ x 1 ∂ x 1 ∂ f ∂ x 1 ∂ x 2 ∂ f ∂ x 1 ∂ x 3 ⋯ ∂ f ∂ x 1 ∂ x n ∂ f ∂ x 2 ∂ x 1 ∂ f ∂ x 2 ∂ x 2 ∂ f ∂ x 2 ∂ x 3 ⋯ ∂ f ∂ x 2 ∂ x n ⋮ ⋮ ⋮ ⋮ ⋮ ∂ f ∂ x n ∂ x 1 ∂ f ∂ x n ∂ x 2 ∂ f ∂ x n ∂ x 3 ⋯ ∂ f ∂ x n ∂ x n ) n n \begin{pmatrix} \frac{\partial f}{\partial x_1\partial x_1} & \frac{\partial f}{\partial x_1\partial x_2} &\frac{\partial f}{\partial x_1\partial x_3} & \cdots &\frac{\partial f}{\partial x_1\partial x_n}\\\\ \frac{\partial f}{\partial x_2\partial x_1} & \frac{\partial f}{\partial x_2\partial x_2} &\frac{\partial f}{\partial x_2\partial x_3} & \cdots &\frac{\partial f}{\partial x_2\partial x_n}\\\\ \vdots & \vdots & \vdots & \vdots &\vdots \\\\ \frac{\partial f}{\partial x_n\partial x_1} & \frac{\partial f}{\partial x_n\partial x_2} &\frac{\partial f}{\partial x_n\partial x_3} & \cdots &\frac{\partial f}{\partial x_n\partial x_n}\\\\ \end{pmatrix}_{nn} ⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛∂x1∂x1∂f∂x2∂x1∂f⋮∂xn∂x1∂f∂x1∂x2∂f∂x2∂x2∂f⋮∂xn∂x2∂f∂x1∂x3∂f∂x2∂x3∂f⋮∂xn∂x3∂f⋯⋯⋮⋯∂x1∂xn∂f∂x2∂xn∂f⋮∂xn∂xn∂f⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞nn该函数对应的 H e s s i a n Hessian Hessian矩阵形式为一个 n ∗ n n*n n∗n的方阵,其中所有的元素为二阶偏导数形式。
高斯分布
一元高斯分布:
一元变量
x
x
x满足高斯随机分布
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2),其中
μ
\mu
μ表示均值,是我们的期望值,在高斯噪声中一般设为0均值,
σ
2
\sigma^2
σ2表示为方差,即表征一组数据的偏移量。
p
(
x
)
=
1
2
π
σ
e
x
p
−
1
2
(
x
−
μ
)
2
σ
2
p(x)=\frac{1}{\sqrt{2\pi}\sigma}exp^{-\frac1 2\frac{(x-\mu)^2}{\sigma^2}}
p(x)=2πσ1exp−21σ2(x−μ)2
一元正态分布(高斯分布)
多元高斯分布:
多元变量
x
(
x
1
,
x
2
,
x
3
,
⋯
,
x
n
)
\bold{x}(x_1,x_2,x_3,\cdots,x_n)
x(x1,x2,x3,⋯,xn)满足高斯随机分布
N
i
(
μ
i
,
σ
i
2
)
N_i(\mu_i,\sigma_i^2)
Ni(μi,σi2),其中
μ
i
\mu_i
μi表示第
i
i
i个变量的均值,是我们的期望值,在高斯噪声中一般设为0均值,
σ
i
2
\sigma_i^2
σi2表示第
i
i
i个变量的方差,,即表征一组数据的偏移量。
p
(
x
)
=
1
(
2
π
)
N
d
e
t
(
∑
)
e
x
p
−
1
2
(
x
−
μ
)
T
∑
−
1
(
x
−
μ
)
p(x)=\frac{1}{\sqrt{(2\pi)^Ndet(\sum)}}exp^{-\frac1 2(x-\mu)^T\sum^{-1}(x-\mu)}
p(x)=(2π)Ndet(∑)1exp−21(x−μ)T∑−1(x−μ)
∑
\sum
∑表示多元自变量对应的方差对角阵
(
σ
1
2
0
0
⋯
0
0
σ
2
2
0
⋯
0
⋮
⋮
⋮
⋮
⋮
0
0
0
⋯
σ
n
2
)
\begin{pmatrix} \sigma_1^2 & 0 & 0&\cdots &0&\\0&\sigma_2^2&0&\cdots&0\\\vdots&\vdots&\vdots&\vdots&\vdots\\0&0&0&\cdots & \sigma_n^2\end{pmatrix}
⎝⎜⎜⎜⎛σ120⋮00σ22⋮000⋮0⋯⋯⋮⋯00⋮σn2⎠⎟⎟⎟⎞
多元高斯分布
高斯牛顿
已知有待求解的最小二乘函数为
f
f
f,对应的一阶求导梯度为
g
g
g,对应的二阶求导
H
e
s
s
i
a
n
Hessian
Hessian矩阵为
H
H
H,于是高斯牛顿优化过程中的迭代公式为
x
k
+
1
=
x
k
−
H
g
x_{k+1}=x_k-Hg
xk+1=xk−Hg
注意这里的
H
e
s
s
i
a
n
Hessian
Hessian矩阵一种简单的求解方式就是省略二阶项,利用函数对应的雅可比进行求解。
数值优化之高斯-牛顿法(Gauss-Newton)
高斯牛顿法和LM法