基础
符号 | 含义 |
---|---|
C C C | 特征通道数(此处仅代表含义,不同地方的 C C C数值可能不同) |
N N N | 样本数 |
- 以下所有“向量”代表列向量
- 每一个样本点 x x x都是一个向量,多个样本组成矩阵 X = [ x 0 , x 1 , . . . , x n ] X=[x_0, x_1,...,x_n] X=[x0,x1,...,xn]
向量
- 向量的坐标代表向量在指定基下的投影: a = [ e 1 , e 2 , e 3 ] T [ a 1 , a 2 , a 3 ] a=[e_1,e_2,e_3]^T[a_1,a_2,a_3] a=[e1,e2,e3]T[a1,a2,a3]
- 向量点积/内积/数量积:
a
⋅
b
=
a
T
b
=
∑
i
C
a
i
b
i
=
∣
a
∣
∣
b
∣
c
o
s
θ
a·b =a^Tb=\sum^C_ia_ib_i=|a||b|cos\theta
a⋅b=aTb=∑iCaibi=∣a∣∣b∣cosθ,
θ
\theta
θ为
a
,
b
a,b
a,b夹角
- 内积代表一个向量在另一个向量上的投影
- 向量
a
a
a的反对称矩阵
A
A
A:
a
=
[
a
1
a
2
a
3
]
,
A
=
a
∧
=
[
0
−
a
3
a
2
a
3
0
−
a
1
−
a
2
a
1
0
]
a=\left[ \begin{array}{c} a_1 \\ a_2 \\ a_3\end{array}\right],A=a^\wedge=\left[ \begin{array}{c} 0 & -a_3 & a_2 \\ a_3 & 0 & -a_1 \\ -a_2 & a_1 & 0 \end{array}\right]
a=⎣⎡a1a2a3⎦⎤,A=a∧=⎣⎡0a3−a2−a30a1a2−a10⎦⎤
- 反对称矩阵满足: A T = − A A^T=-A AT=−A
- 向量外积:
- 外积是一个垂直于俩向量的向量,大小为 ∣ a ∣ ∣ b ∣ s i n ( a , b ) |a||b|sin(a,b) ∣a∣∣b∣sin(a,b)
信息量
- 横坐标为概率 p p p,则对应纵坐标信息量 i = − l o g p i=-logp i=−logp,反映事件让人惊讶的程度(不确定性)
熵
- 某个事件对应的信息量的期望
传统算法
线性回归
寻找一个权重 w w w和偏置 b b b,使得 w T X + b w^TX+b wTX+b最接近目标值 Y Y Y。相当于拟合一条直线(或一个超平面),让所有样本在直线上的取值与真实值最接近。举个例子,二维情况下, w w w相当于斜率 k ∈ R k∈\mathbb{R} k∈R, b b b相当于截距。
- 输入:样本矩阵 X ∈ R C × N X∈\mathbb{R}^{C×N} X∈RC×N,目标值(ground truth) Y g t ∈ R 1 × N Y_{gt}∈\mathbb{R}^{1×N} Ygt∈R1×N
- 输出:权重 w ∈ R C × 1 w∈\mathbb{R}^{C×1} w∈RC×1,偏置 b ∈ R b∈\mathbb{R} b∈R
推导
- Y = w T X + b ∈ R 1 × N Y=w^TX+b∈\mathbb{R}^{1×N} Y=wTX+b∈R1×N
- 通过齐次形式把 b b b整合进 w w w, w = [ w b ] ∈ R ( C + 1 ) × 1 , X = [ X 1 ] ∈ R ( C + 1 ) × N w=\left[ \begin{array}{c} w \\ b\end{array}\right]∈\mathbb{R}^{(C+1)×1},X=\left[ \begin{array}{c} X \\ 1\end{array}\right]∈\mathbb{R}^{(C+1)×N} w=[wb]∈R(C+1)×1,X=[X1]∈R(C+1)×N
- Y = w T X ∈ R 1 × N Y=w^TX∈\mathbb{R}^{1×N} Y=wTX∈R1×N
- 这里可通过最小二乘获得最优参数的解析解
- L o s s = ∑ ( y g t − y ) 2 = ( Y g t − w T X ) ( Y g t − w T X ) T ∈ R + Loss=\sum(y_{gt}-y)^2=(Y_{gt}-w^TX)(Y_{gt}-w^TX)^T∈\mathbb{R}^{+} Loss=∑(ygt−y)2=(Ygt−wTX)(Ygt−wTX)T∈R+
- ∂ L o s s ∂ w = 2 ( w T X − Y g t ) X T ∈ R ( C + 1 ) × 1 \frac{\partial Loss}{\partial w}=2(w^TX-Y_{gt})X^T∈\mathbb{R}^{(C+1)×1} ∂w∂Loss=2(wTX−Ygt)XT∈R(C+1)×1
- 令偏导为 0 0 0
- 2 ( w T X − Y g t ) X T = 0 2(w^TX-Y_{gt})X^T=0 2(wTX−Ygt)XT=0
- w T X X T = Y g t X T w^TXX^T=Y_{gt}X^T wTXXT=YgtXT
- w = ( Y g t X T ( X X T ) − 1 ) T w=(Y_{gt}X^T(XX^T)^{-1})^T w=(YgtXT(XXT)−1)T
- w = ( X X T ) − 1 X Y g t T w=(XX^T)^{-1}XY_{gt}^T w=(XXT)−1XYgtT
逻辑回归
逻辑回归是分类算法,相当于全连接加 s i g m o i d sigmoid sigmoid激活的单层神经网络。
- 输入:样本矩阵 X ∈ R C × N X∈\mathbb{R}^{C×N} X∈RC×N,每个样本对应的类别
- 输出:权重 w ∈ R C × 1 w∈\mathbb{R}^{C×1} w∈RC×1,偏置 b ∈ R b∈\mathbb{R} b∈R
推导
- 给出样本矩阵 X ∈ R C × N X∈\mathbb{R}^{C×N} X∈RC×N
- 过一层全连接+
s
i
g
m
o
i
d
sigmoid
sigmoid得到输出:
Y
=
s
i
g
m
o
i
d
(
w
T
X
+
b
)
∈
(
0
,
1
)
1
×
N
Y=sigmoid(w^TX+b)∈(0,1)^{1×N}
Y=sigmoid(wTX+b)∈(0,1)1×N
- s i g m o i d ( x ) = 1 1 + e − x sigmoid(x)=\frac{1}{1+e^{-x}} sigmoid(x)=1+e−x1
- 将 Y Y Y作为属于正样本的概率,则 1 − Y 1-Y 1−Y为负样本概率
- 利用极大似然估计(MLE)构造目标函数,使得所有样本对应类别出现的联合概率最大
- arg max w , b ( l o g ∏ i N P i ) , P i = { Y i X i 是 正 样 本 1 − Y i X i 是 负 样 本 \underset {w,b}{\operatorname {arg\,max} }(log\prod_i^N P_i),P_i=\begin{cases}Y_i & X_i是正样本\\1-Y_i &X_i是负样本\end{cases} w,bargmax(log∏iNPi),Pi={Yi1−YiXi是正样本Xi是负样本
- 等价于最小化信息量之和: L o s s = ∑ i N − l o g P i Loss=\sum_i^N-logP_i Loss=∑iN−logPi
SVM
SVM希望找到一个超平面用于划分样本,使得各类别距离超平面最近的样本点 x i x_i xi距离超平面最远。
- 输入:样本矩阵 X ∈ R C × N X∈\mathbb{R}^{C×N} X∈RC×N,每个样本对应的类别
- 输出:超平面权重 w ∈ R C × 1 w∈\mathbb{R}^{C×1} w∈RC×1,超平面偏置 b ∈ R b∈\mathbb{R} b∈R
定理
- 超平面: w T x + b = 0 w^Tx+b=0 wTx+b=0
- 超平面法向量: w w w
- 点到超平面距离: d = ∣ w T x + b ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^Tx+b|}{||w||} d=∣∣w∣∣∣wTx+b∣
- 平行超平面间距离: d = ∣ b 1 − b 2 ∣ ∣ ∣ w ∣ ∣ d=\frac{|b_1-b_2|}{||w||} d=∣∣w∣∣∣b1−b2∣
原理
- 给出样本矩阵 X ∈ R C × N X∈\mathbb{R}^{C×N} X∈RC×N
- 求所有样本 X X X到超平面的距离 D = ∣ w T X + b ∣ ∣ ∣ w ∣ ∣ ∈ R 1 × N D=\frac{|w^TX+b|}{||w||}∈\mathbb{R}^{1×N} D=∣∣w∣∣∣wTX+b∣∈R1×N
- 找到 n n n个样本中距离超平面最近的点 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
- SVM要求正负样本中距离超平面最近的样本到超平面的距离最大,即 m a x w , b ∣ w T x i + b ∣ ∣ ∣ w ∣ ∣ , 0 < i ≤ n max_{w,b}\frac{|w^Tx_i+b|}{||w||},0<i≤n maxw,b∣∣w∣∣∣wTxi+b∣,0<i≤n
- 令 ∣ w T x i + b ∣ = 1 |w^Tx_i+b|=1 ∣wTxi+b∣=1,优化目标变为 m a x w , b 1 ∣ ∣ w ∣ ∣ , s . t . ∣ w T x i + b ∣ > = 1 , 0 < i ≤ n max_{w,b}\frac{1}{||w||},s.t.|w^Tx_i+b|>=1,0<i≤n maxw,b∣∣w∣∣1,s.t.∣wTxi+b∣>=1,0<i≤n
- 对于二分类问题,等效于合页损失加正则项: L o s s = m a x ( 0 , 1 − y ( w T x + b ) ) + λ ∣ ∣ w ∣ ∣ 2 , y ∈ ± 1 Loss=max(0, 1-y(w^Tx+b))+\lambda||w||^2,y∈±1 Loss=max(0,1−y(wTx+b))+λ∣∣w∣∣2,y∈±1
- 对于多分类问题,相当于做多个二分类
深度学习
通用概念/公式
最小二乘法
- 构造MSE损失,令导数为0求极值
极大似然估计
- 选取候选参数中使得所有样本被正确分类的概率最大的参数
超平面
- 二维下直线表达式: a x + b y + c = 0 ax+by+c=0 ax+by+c=0
- 多维超平面表达式: a x + b y + c z + . . . + d = 0 ax+by+cz+...+d=0 ax+by+cz+...+d=0
- 写作矩阵形式:
w
T
x
+
b
=
0
w^Tx+b=0
wTx+b=0
- x ∈ R C × 1 x∈\mathbb{R}^{C×1} x∈RC×1代表超平面上的任意样本点
- 超平面权重 w ∈ R C × 1 w∈\mathbb{R}^{C×1} w∈RC×1同二维下的 [ a , b ] T [a,b]^T [a,b]T
- 超平面偏置 b ∈ R b∈\mathbb{R} b∈R同二维e下的 c c c
超平面法向量
- 给出超平面: w T x + b = 0 w^Tx+b=0 wTx+b=0
- 超平面的法向量垂直于该超平面上的任意向量
- 设超平面上任意俩点 x 1 , x 2 x_1,x_2 x1,x2
- w T x 1 + b = 0 , w T x 2 + b = 0 w^Tx_1+b=0, w^Tx_2+b=0 wTx1+b=0,wTx2+b=0
- w T ( x 1 − x 2 ) = 0 w^T(x_1-x_2)=0 wT(x1−x2)=0
- w w w垂直于超平面上任意向量
点到超平面距离
- 给出超平面: w T x + b = 0 w^Tx+b=0 wTx+b=0,超平面上任意一点 x x x,任意一点 p p p
- 超平面法向量: w w w
- p p p到超平面的距离 d ∈ R d∈\mathbb{R} d∈R为向量 p − x p-x p−x对超平面单位法向量的投影长度(即点积的绝对值)
- 单位法向量: w ∣ ∣ w ∣ ∣ \frac{w}{||w||} ∣∣w∣∣w
- d = ∣ ( w ∣ ∣ w ∣ ∣ ) T ( p − x ) ∣ d=|(\frac{w}{||w||})^T(p-x)| d=∣(∣∣w∣∣w)T(p−x)∣
- d = ∣ w T ( p − x ) ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^T(p-x)|}{||w||} d=∣∣w∣∣∣wT(p−x)∣
- d = ∣ w T p − w T x ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^Tp-w^Tx|}{||w||} d=∣∣w∣∣∣wTp−wTx∣
- d = ∣ w T p + b ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^Tp+b|}{||w||} d=∣∣w∣∣∣wTp+b∣
- 则对任意一点 x x x,到超平面距离为 d = ∣ w T x + b ∣ ∣ ∣ w ∣ ∣ ∈ R + d=\frac{|w^Tx+b|}{||w||}∈\mathbb{R}^+ d=∣∣w∣∣∣wTx+b∣∈R+
平行超平面间距离
- 给出超平面: w T x 1 + b 1 = 0 w^Tx_1+b_1=0 wTx1+b1=0,和与其平行的超平面 w T x 2 + b 2 = 0 w^Tx_2+b_2=0 wTx2+b2=0
- 超平面法向量: w w w
- 超平面间的距离 d ∈ R d∈\mathbb{R} d∈R为向量 x 1 − x 2 x_1-x_2 x1−x2对超平面单位法向量的投影长度(即点积的绝对值),此处 x 1 , x 2 x_1,x_2 x1,x2分别为俩个超平面上的任意一点,俩个超平面法向量相同
- 单位法向量: w ∣ ∣ w ∣ ∣ \frac{w}{||w||} ∣∣w∣∣w
- d = ∣ ( w ∣ ∣ w ∣ ∣ ) T ( x 1 − x 2 ) ∣ d=|(\frac{w}{||w||})^T(x_1-x_2)| d=∣(∣∣w∣∣w)T(x1−x2)∣
- d = ∣ w T ( x 1 − x 2 ) ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^T(x_1-x_2)|}{||w||} d=∣∣w∣∣∣wT(x1−x2)∣
- d = ∣ w T x 1 − w T x 2 ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^Tx_1-w^Tx_2|}{||w||} d=∣∣w∣∣∣wTx1−wTx2∣
- d = ∣ − b 1 + b 2 ∣ ∣ ∣ w ∣ ∣ d=\frac{|-b_1+b_2|}{||w||} d=∣∣w∣∣∣−b1+b2∣
- d = ∣ b 1 − b 2 ∣ ∣ ∣ w ∣ ∣ d=\frac{|b_1-b_2|}{||w||} d=∣∣w∣∣∣b1−b2∣
- 平行超平面间距离为 d = ∣ b 1 − b 2 ∣ ∣ ∣ w ∣ ∣ ∈ R + d=\frac{|b_1-b_2|}{||w||}∈\mathbb{R}^+ d=∣∣w∣∣∣b1−b2∣∈R+