1 Introduction
- 模式识别领域关注的是利用计算机算法自动发现数据规律,并利用这些规律采取一定的行动,例如分类。
- 泛化(Generalization):正确分类与训练集不同的新样本的能力。
- 特征抽取(feature extraction):训练前的数据预处理,将输入变量变换到新的变量空间。
- 样本数量应为参数数量的几倍(5 or 10),数据集越大模型会越复杂越灵活,同时数据集的增大能缓解过拟合的问题。
- 通常使用正则化(regularization)来避免过拟合,正则化计算时又通常将系数 ω 0 \omega_0 ω0省去。正则化技术由于减小了系数,所以又通常被称为收缩(shrinkage)方法,特殊情况:山脊回归/权值衰减。
1.2 概率论
概率论为PR领域的不确定性的量化提供了合理一致的框架,是PR的核心。
(1)贝叶斯定理:
p
(
Y
∣
X
)
=
p
(
X
,
Y
)
p
(
X
)
=
p
(
X
∣
Y
)
p
(
Y
)
p
(
X
)
p(Y|X) = \frac{p(X, Y)}{p(X)} = \frac{p(X|Y)p(Y)}{p(X)}
p(Y∣X)=p(X)p(X,Y)=p(X)p(X∣Y)p(Y)
p
(
X
)
=
∑
Y
p
(
X
∣
Y
)
p
(
Y
)
=
∫
p
(
X
∣
Y
)
p
(
Y
)
d
Y
p(X) = \sum_Yp(X|Y)p(Y) = \int p(X|Y)p(Y)dY
p(X)=Y∑p(X∣Y)p(Y)=∫p(X∣Y)p(Y)dY
若X和Y相互独立,则满足
p
(
X
∣
Y
)
=
p
(
X
)
p
(
Y
)
p(X|Y) = p(X)p(Y)
p(X∣Y)=p(X)p(Y)
先验概率(prior probability) & 后验概率(posterior probability)
(2)概率密度
p ( x ) ≥ 0 p(x) \geq 0 p(x)≥0 ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty}p(x) dx = 1 ∫−∞∞p(x)dx=1
(3)期望
E
[
f
]
=
∑
x
p
(
x
)
f
(
x
)
=
∫
p
(
x
)
f
(
x
)
d
x
E[f] = \sum_x p(x)f(x) = \int p(x)f(x)dx
E[f]=x∑p(x)f(x)=∫p(x)f(x)dx
E
x
[
f
∣
y
]
=
∑
x
p
(
x
∣
y
)
f
(
x
)
E_x[f|y] = \sum_x p(x|y)f(x)
Ex[f∣y]=x∑p(x∣y)f(x)
(4)方差 & 协方差
v
a
r
[
f
]
=
E
[
(
f
(
x
)
−
E
[
f
(
x
)
]
)
2
]
=
E
[
f
(
x
)
2
]
−
E
[
f
(
x
)
]
2
var[f] = E[(f(x) - E[f(x)])^2] = E[f(x)^2] - E[f(x)]^2
var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2
c
o
v
(
x
,
y
)
=
E
(
x
,
y
)
[
x
−
E
[
x
]
y
−
E
[
y
]
]
=
E
(
x
,
y
)
[
x
y
]
−
E
[
x
]
E
[
y
]
cov(x,y) = E_{(x,y)}[{x-E[x]}{y-E[y]}] = E_{(x,y)}[xy] - E[x]E[y]
cov(x,y)=E(x,y)[x−E[x]y−E[y]]=E(x,y)[xy]−E[x]E[y]
c
o
v
(
x
,
y
)
=
E
(
x
,
y
)
[
x
−
E
[
x
]
y
T
−
E
[
y
T
]
]
=
E
(
x
,
y
)
[
x
y
T
]
−
E
[
x
]
E
[
y
T
]
cov(x,y) = E_{(x,y)}[{x-E[x]}{y^T-E[y^T]}] = E_{(x,y)}[xy^T] - E[x]E[y^T]
cov(x,y)=E(x,y)[x−E[x]yT−E[yT]]=E(x,y)[xyT]−E[x]E[yT]
(5)高斯分布Gaussian Distribution
N
(
x
∣
μ
,
σ
2
)
=
1
(
2
π
σ
2
)
1
2
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
N(x|\mu, \sigma^2) =\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}} exp(-\frac{(x - \mu)^2}{2\sigma^2})
N(x∣μ,σ2)=(2πσ2)211exp(−2σ2(x−μ)2)
E
[
x
]
=
μ
,
v
a
r
[
x
]
=
σ
2
,
p
r
e
c
i
s
i
o
n
=
1
σ
2
E[x] = \mu, var[x] = \sigma^2, precision = \frac{1}{\sigma^2}
E[x]=μ,var[x]=σ2,precision=σ21
D维向量x的高斯分布(前提默认
σ
2
=
1
\sigma^2 = 1
σ2=1,
Σ
\Sigma
Σ为协方差矩阵,
∣
Σ
∣
|\Sigma|
∣Σ∣为其行列式):
N
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
D
2
∣
Σ
∣
1
2
e
x
p
(
−
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
2
)
N(x|\mu, \Sigma) =\frac{1}{(2\pi)^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}}} exp(-\frac{(x - \mu)^T\Sigma^{-1}(x - \mu)}{2})
N(x∣μ,Σ)=(2π)2D∣Σ∣211exp(−2(x−μ)TΣ−1(x−μ))
为了确定高斯分布中的参数,常常采用最大似然法(maximum likelihood)。但是这种方法常常系统化的低估了分布的方差,因此需要进行(n-1)/n的修正:
μ = E [ μ M L ] = E [ 1 N ∑ n = 1 N x n ] \mu = E[\mu_{ML}] = E[\frac{1}{N}\sum^N_{n=1}x_n] μ=E[μML]=E[N1n=1∑Nxn] σ 2 = N N − 1 E [ σ M L 2 ] = 1 N − 1 ∑ n = 1 N ( x n − x ˉ ) 2 \sigma^2 = \frac{N}{N-1} E[\sigma_{ML}^2] = \frac{1}{N-1}\sum^N_{n=1}(x_n - \bar{x})^2 σ2=N−1NE[σML2]=N−11n=1∑N(xn−xˉ)2
(6)曲线拟合
最大化似然函数(
β
\beta
β为精度函数):
p
(
t
∣
x
,
ω
M
L
,
β
M
L
)
=
N
(
t
∣
y
(
x
,
ω
M
L
)
,
β
M
L
−
1
)
p(t|x, \omega_{ML}, \beta_{ML}) = N(t|y(x, \omega_{ML}), \beta_{ML}^{-1})
p(t∣x,ωML,βML)=N(t∣y(x,ωML),βML−1)
β
M
L
−
1
=
1
N
∑
n
=
1
N
(
y
(
x
n
,
ω
M
L
)
−
t
n
)
2
\beta_{ML}^{-1} = \frac{1}{N}\sum_{n=1}^N(y(x_n, \omega_{ML}) - t_n)^2
βML−1=N1n=1∑N(y(xn,ωML)−tn)2
多项式系数w上的先验分布:
p
(
ω
∣
α
)
=
N
(
ω
∣
0
,
α
−
1
I
)
=
(
α
2
π
)
M
+
1
2
e
x
p
(
−
α
2
ω
T
ω
)
p(\omega|\alpha) = N(\omega|0, \alpha^{-1}I) = (\frac{\alpha}{2\pi})^{\frac{M+1}{2}}exp(-\frac{\alpha}{2}\omega^T \omega)
p(ω∣α)=N(ω∣0,α−1I)=(2πα)2M+1exp(−2αωTω)
最大后验(maximum posterior)概率,简称MAP:
p
(
ω
∣
x
,
t
,
α
,
β
)
∝
p
(
t
∣
x
,
ω
M
L
,
β
M
L
)
p
(
ω
∣
α
)
p(\omega|x,t,\alpha,\beta) \propto p(t|x, \omega_{ML}, \beta_{ML}) p(\omega|\alpha)
p(ω∣x,t,α,β)∝p(t∣x,ωML,βML)p(ω∣α)
即最小化正则化的平方和误差函数(正则化系数为
α
β
\frac{\alpha}{\beta}
βα):
β
2
∑
n
=
1
N
(
y
(
x
n
,
ω
M
L
)
−
t
n
)
2
+
α
2
ω
T
ω
\frac{\beta}{2}\sum_{n=1}^N(y(x_n, \omega_{ML})-t_n)^2 + \frac{\alpha}{2}\omega^T \omega
2βn=1∑N(y(xn,ωML)−tn)2+2αωTω
1.3 模型选择
通过验证集(validation set)选择预测表现最好的模型,但是如果验证集很小,那么它就会对预测表现的估计产生一定的噪声,因此采用交叉验证的方式。交叉验证主要有两种方式,一种是“k-fold cross validation”,一种是“leave-one-out cross validation”。
1.4 维度灾难
不是所有再低维空间的逻辑和直觉都可以直接推广到高维空间。但是有两个原因可以帮助我们在高维空间中继续探索:
- 真实数据常常被限制在较低维度的有效区间中。
- 真实数据通常比较光滑,对于输入变量的微小改变不会对输出数据造成较大影响,因此对于局部可以考虑采用插值法来进行处理。
1.5 决策论
(1)最小化错误分类率、最大化正确分类率
将每个输入样本x都被分类到最大后验概率
p
(
x
,
C
k
)
p(x,C_k)
p(x,Ck)的类别中。
min
p
(
m
i
s
t
a
k
e
)
=
p
(
x
∈
R
1
,
C
2
)
+
p
(
x
∈
R
2
,
C
1
)
=
∫
R
1
p
(
x
,
C
2
)
d
x
+
∫
R
2
p
(
x
,
C
1
)
d
x
\min p(mistake) = p(x \in R_1, C_2) + p(x \in R_2, C_1) = \int_{R_1} p(x,C_2)dx + \int_{R_2} p(x,C_1)dx
minp(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx
max
p
(
c
o
r
r
e
c
t
)
=
∑
k
=
1
K
p
(
x
∈
R
k
,
C
k
)
=
∑
k
=
1
K
∫
R
k
p
(
x
,
C
k
)
d
x
\max p(correct) = \sum_{k = 1}^K p(x \in R_k, C_k) = \sum_{k = 1}^K \int_{R_k} p(x,C_k)dx
maxp(correct)=k=1∑Kp(x∈Rk,Ck)=k=1∑K∫Rkp(x,Ck)dx
(2)最小化期望损失
假设 L k j L_{kj} Lkj表示样本x原本属于k类却被分为j类的损失,那么最小化期望损失即:
min E [ L ] = ∑ k ∑ j ∫ R j L k j p ( x , C k ) d x = ∑ k ∑ j ∫ R j L k j p ( C k ∣ x ) d x \min E[L] = \sum_k \sum_j \int_{R_j} L_{kj}p(x,C_k)dx = \sum_k \sum_j \int_{R_j} L_{kj}p(C_k|x)dx minE[L]=k∑j∑∫RjLkjp(x,Ck)dx=k∑j∑∫RjLkjp(Ck∣x)dx
(3)拒绝选项: 当最大后验概率小于某个设定的阈值时,选择不作出推断,交由人类专家。
(4)推断和决策
- 生成式模型(generative models):对输入输出显式隐式地建模,可以通过采样人工生成数据点。而且可以通过求解得到边缘概率密度p(x),检测模型中低概率的新数据点(离群点检测/异常检测)。 max i p ( y i ∣ x ) = p ( x ∣ y i ) p ( y i ) / C \max_i p(y_i|x)=p(x|y_i)p(y_i) / C maxip(yi∣x)=p(x∣yi)p(yi)/C
- 判别式模型(discriminative models):对后验概率 p ( y ∣ x ) p(y|x) p(y∣x)建模。
- 判别函数(discriminant function):把输入x直接映射为类别标签。
(4)回归问题的损失函数
E [ L ] = ∫ ∫ L ( t , y ( x ) ) p ( x , t ) d x d t E[L] = \int\int L(t, y(x))p(x, t)dxdt E[L]=∫∫L(t,y(x))p(x,t)dxdt E [ L ] = ∫ ∫ { y ( x ) − t } 2 p ( x , t ) d x d t = ∫ { y − E [ t ∣ x ] } 2 p ( x ) d x + ∫ v a r [ t ∣ x ] p ( x ) d x E[L] = \int\int \{y(x)-t\}^2p(x, t)dxdt = \int \{y - E[t|x]\}^2p(x) dx + \int var[t|x]p(x) dx E[L]=∫∫{y(x)−t}2p(x,t)dxdt=∫{y−E[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx
1.6 信息论
(1)信息量:
信息量 h(x) 可以被看作是在学习x值时的“惊讶程度”,且满足:
h
(
x
,
y
)
=
h
(
x
)
+
h
(
y
)
h(x, y) = h(x)+h(y)
h(x,y)=h(x)+h(y)
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
p(x, y) = p(x)p(y)
p(x,y)=p(x)p(y)
因为低概率的事件x应获得较高的信息量,因此h(x)应是如下形式:
h
(
x
)
=
−
ln
p
(
x
)
h(x) = -\ln p(x)
h(x)=−lnp(x)
(2)熵(entropy):
传输信息时得到的信息量的期望被称为“随机变量x的熵”:
H
(
x
)
=
−
∑
x
p
(
x
)
ln
p
(
x
)
=
−
∫
p
(
x
)
ln
p
(
x
)
H(x) = -\sum_x p(x)\ln p(x) = -\int p(x)\ln p(x)
H(x)=−x∑p(x)lnp(x)=−∫p(x)lnp(x)
高斯分布的微分熵:
H
(
x
)
=
−
∫
p
(
x
)
ln
p
(
x
)
=
1
2
[
1
+
l
n
(
2
π
σ
2
)
]
H(x) = -\int p(x)\ln p(x) = \frac{1}{2}[1+ln(2\pi \sigma^2)]
H(x)=−∫p(x)lnp(x)=21[1+ln(2πσ2)]
联合概率分布的熵:
H
[
x
,
y
]
=
H
[
y
∣
x
]
+
H
[
x
]
=
−
∫
∫
p
(
x
,
y
)
ln
p
(
x
,
y
)
d
y
d
x
−
∫
p
(
x
)
ln
p
(
x
)
H[x, y] = H[y|x] + H[x] = -\int\int p(x,y)\ln p(x,y) dydx -\int p(x)\ln p(x)
H[x,y]=H[y∣x]+H[x]=−∫∫p(x,y)lnp(x,y)dydx−∫p(x)lnp(x)
(3)KL(Kullback-Leibler)散度:
假设用分布 q(x) 拟合真实分布 p(x) ,用 q(x) 传输信息时需要的平均附加信息量被称为KL散度:
K
L
(
p
∣
∣
q
)
=
−
∫
p
(
x
)
ln
q
(
x
)
d
x
−
(
−
∫
p
(
x
)
ln
p
(
x
)
d
x
)
=
−
∫
p
(
x
)
ln
{
q
(
x
)
p
(
x
)
}
d
x
KL(p || q) = -\int p(x)\ln q(x)dx - (-\int p(x)\ln p(x)dx) = -\int p(x)\ln\{ \frac{q(x)}{p(x)}\}dx
KL(p∣∣q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln{p(x)q(x)}dx
将Jensen不等式
f
(
∫
x
p
(
x
)
d
x
)
≤
∫
f
(
x
)
p
(
x
)
d
x
f(\int xp(x)dx) \leq \int f(x)p(x)dx
f(∫xp(x)dx)≤∫f(x)p(x)dx应用于KL散度:
K
L
(
p
∣
∣
q
)
=
−
∫
p
(
x
)
ln
{
q
(
x
)
p
(
x
)
}
d
x
≥
−
ln
∫
q
(
x
)
d
x
=
0
KL(p || q) = -\int p(x)\ln\{ \frac{q(x)}{p(x)}\}dx \geq -\ln \int q(x)dx = 0
KL(p∣∣q)=−∫p(x)ln{p(x)q(x)}dx≥−ln∫q(x)dx=0
因此,
K
L
(
p
∣
∣
q
)
≥
0
KL(p || q) \geq 0
KL(p∣∣q)≥0,当且仅当
p
(
x
)
=
q
(
x
)
p(x) = q(x)
p(x)=q(x)时,等号成立。
最小化KL散度等价于最大化
q
(
x
∣
θ
)
q(x|\theta)
q(x∣θ)的似然函数:
K
L
(
p
∣
∣
q
)
≃
1
N
∑
n
=
1
N
{
−
ln
q
(
x
n
∣
θ
)
+
ln
p
(
x
n
)
}
KL(p || q) \simeq \frac{1}{N} \sum_{n=1}^N \{ {-\ln q(x_n|\theta)} + \ln p(x_n) \}
KL(p∣∣q)≃N1n=1∑N{−lnq(xn∣θ)+lnp(xn)}
(4)互信息(mutual information):
对于联合概率分布而言,其KL散度被称为变量x和y之间的互信息。可以将互信息看作是由于知道了y值而造成的x值不确定性的减小:
I
[
x
,
y
]
=
K
L
(
p
(
x
,
y
)
∣
∣
p
(
x
)
p
(
y
)
)
=
−
∫
∫
p
(
x
,
y
)
ln
{
p
(
x
)
p
(
y
)
p
(
x
,
y
)
}
d
x
d
y
I[x, y] = KL(p(x, y) || p(x)p(y)) = -\int\int p(x,y)\ln\{ \frac{p(x)p(y)}{p(x,y)}\}dxdy
I[x,y]=KL(p(x,y)∣∣p(x)p(y))=−∫∫p(x,y)ln{p(x,y)p(x)p(y)}dxdy
I
[
x
,
y
]
=
H
[
x
]
−
H
[
x
∣
y
]
=
H
[
y
]
−
H
[
y
∣
x
]
I[x, y] = H[x] - H[x|y] = H[y] - H[y|x]
I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]
注:以上所有内容均为个人归纳整理,欢迎指正/提问/讨论~