【Book】Pattern Recognition and Machine Learning - 1 Introduction

1 Introduction

  • 模式识别领域关注的是利用计算机算法自动发现数据规律,并利用这些规律采取一定的行动,例如分类。
  • 泛化(Generalization):正确分类与训练集不同的新样本的能力。
  • 特征抽取(feature extraction):训练前的数据预处理,将输入变量变换到新的变量空间。
  • 样本数量应为参数数量的几倍(5 or 10),数据集越大模型会越复杂越灵活,同时数据集的增大能缓解过拟合的问题。
  • 通常使用正则化(regularization)来避免过拟合,正则化计算时又通常将系数 ω 0 \omega_0 ω0省去。正则化技术由于减小了系数,所以又通常被称为收缩(shrinkage)方法,特殊情况:山脊回归/权值衰减。
1.2 概率论

概率论为PR领域的不确定性的量化提供了合理一致的框架,是PR的核心。

(1)贝叶斯定理

p ( Y ∣ X ) = p ( X , Y ) p ( X ) = p ( X ∣ Y ) p ( Y ) p ( X ) p(Y|X) = \frac{p(X, Y)}{p(X)} = \frac{p(X|Y)p(Y)}{p(X)} p(YX)=p(X)p(X,Y)=p(X)p(XY)p(Y) p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) = ∫ p ( X ∣ Y ) p ( Y ) d Y p(X) = \sum_Yp(X|Y)p(Y) = \int p(X|Y)p(Y)dY p(X)=Yp(XY)p(Y)=p(XY)p(Y)dY
若X和Y相互独立,则满足 p ( X ∣ Y ) = p ( X ) p ( Y ) p(X|Y) = p(X)p(Y) p(XY)=p(X)p(Y)

先验概率(prior probability) & 后验概率(posterior probability)

(2)概率密度

p ( x ) ≥ 0 p(x) \geq 0 p(x)0 ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty}p(x) dx = 1 p(x)dx=1

(3)期望
E [ f ] = ∑ x p ( x ) f ( x ) = ∫ p ( x ) f ( x ) d x E[f] = \sum_x p(x)f(x) = \int p(x)f(x)dx E[f]=xp(x)f(x)=p(x)f(x)dx E x [ f ∣ y ] = ∑ x p ( x ∣ y ) f ( x ) E_x[f|y] = \sum_x p(x|y)f(x) Ex[fy]=xp(xy)f(x)

(4)方差 & 协方差

v a r [ f ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 ] − E [ f ( x ) ] 2 var[f] = E[(f(x) - E[f(x)])^2] = E[f(x)^2] - E[f(x)]^2 var[f]=E[(f(x)E[f(x)])2]=E[f(x)2]E[f(x)]2 c o v ( x , y ) = E ( x , y ) [ x − E [ x ] y − E [ y ] ] = E ( x , y ) [ x y ] − E [ x ] E [ y ] cov(x,y) = E_{(x,y)}[{x-E[x]}{y-E[y]}] = E_{(x,y)}[xy] - E[x]E[y] cov(x,y)=E(x,y)[xE[x]yE[y]]=E(x,y)[xy]E[x]E[y] c o v ( x , y ) = E ( x , y ) [ x − E [ x ] y T − E [ y T ] ] = E ( x , y ) [ x y T ] − E [ x ] E [ y T ] cov(x,y) = E_{(x,y)}[{x-E[x]}{y^T-E[y^T]}] = E_{(x,y)}[xy^T] - E[x]E[y^T] cov(x,y)=E(x,y)[xE[x]yTE[yT]]=E(x,y)[xyT]E[x]E[yT]
(5)高斯分布Gaussian Distribution

N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 2 e x p ( − ( x − μ ) 2 2 σ 2 ) N(x|\mu, \sigma^2) =\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}} exp(-\frac{(x - \mu)^2}{2\sigma^2}) N(xμ,σ2)=(2πσ2)211exp(2σ2(xμ)2) E [ x ] = μ , v a r [ x ] = σ 2 , p r e c i s i o n = 1 σ 2 E[x] = \mu, var[x] = \sigma^2, precision = \frac{1}{\sigma^2} E[x]=μ,var[x]=σ2,precision=σ21
D维向量x的高斯分布(前提默认 σ 2 = 1 \sigma^2 = 1 σ2=1 Σ \Sigma Σ为协方差矩阵, ∣ Σ ∣ |\Sigma| Σ为其行列式):

N ( x ∣ μ , Σ ) = 1 ( 2 π ) D 2 ∣ Σ ∣ 1 2 e x p ( − ( x − μ ) T Σ − 1 ( x − μ ) 2 ) N(x|\mu, \Sigma) =\frac{1}{(2\pi)^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}}} exp(-\frac{(x - \mu)^T\Sigma^{-1}(x - \mu)}{2}) N(xμ,Σ)=(2π)2DΣ211exp(2(xμ)TΣ1(xμ))
为了确定高斯分布中的参数,常常采用最大似然法(maximum likelihood)。但是这种方法常常系统化的低估了分布的方差,因此需要进行(n-1)/n的修正:

μ = E [ μ M L ] = E [ 1 N ∑ n = 1 N x n ] \mu = E[\mu_{ML}] = E[\frac{1}{N}\sum^N_{n=1}x_n] μ=E[μML]=E[N1n=1Nxn] σ 2 = N N − 1 E [ σ M L 2 ] = 1 N − 1 ∑ n = 1 N ( x n − x ˉ ) 2 \sigma^2 = \frac{N}{N-1} E[\sigma_{ML}^2] = \frac{1}{N-1}\sum^N_{n=1}(x_n - \bar{x})^2 σ2=N1NE[σML2]=N11n=1N(xnxˉ)2

(6)曲线拟合

最大化似然函数( β \beta β为精度函数):
p ( t ∣ x , ω M L , β M L ) = N ( t ∣ y ( x , ω M L ) , β M L − 1 ) p(t|x, \omega_{ML}, \beta_{ML}) = N(t|y(x, \omega_{ML}), \beta_{ML}^{-1}) p(tx,ωML,βML)=N(ty(x,ωML),βML1) β M L − 1 = 1 N ∑ n = 1 N ( y ( x n , ω M L ) − t n ) 2 \beta_{ML}^{-1} = \frac{1}{N}\sum_{n=1}^N(y(x_n, \omega_{ML}) - t_n)^2 βML1=N1n=1N(y(xn,ωML)tn)2

多项式系数w上的先验分布:
p ( ω ∣ α ) = N ( ω ∣ 0 , α − 1 I ) = ( α 2 π ) M + 1 2 e x p ( − α 2 ω T ω ) p(\omega|\alpha) = N(\omega|0, \alpha^{-1}I) = (\frac{\alpha}{2\pi})^{\frac{M+1}{2}}exp(-\frac{\alpha}{2}\omega^T \omega) p(ωα)=N(ω0,α1I)=(2πα)2M+1exp(2αωTω)

最大后验(maximum posterior)概率,简称MAP:
p ( ω ∣ x , t , α , β ) ∝ p ( t ∣ x , ω M L , β M L ) p ( ω ∣ α ) p(\omega|x,t,\alpha,\beta) \propto p(t|x, \omega_{ML}, \beta_{ML}) p(\omega|\alpha) p(ωx,t,α,β)p(tx,ωML,βML)p(ωα)
即最小化正则化的平方和误差函数(正则化系数为 α β \frac{\alpha}{\beta} βα):
β 2 ∑ n = 1 N ( y ( x n , ω M L ) − t n ) 2 + α 2 ω T ω \frac{\beta}{2}\sum_{n=1}^N(y(x_n, \omega_{ML})-t_n)^2 + \frac{\alpha}{2}\omega^T \omega 2βn=1N(y(xn,ωML)tn)2+2αωTω

1.3 模型选择

通过验证集(validation set)选择预测表现最好的模型,但是如果验证集很小,那么它就会对预测表现的估计产生一定的噪声,因此采用交叉验证的方式。交叉验证主要有两种方式,一种是“k-fold cross validation”,一种是“leave-one-out cross validation”。

1.4 维度灾难

不是所有再低维空间的逻辑和直觉都可以直接推广到高维空间。但是有两个原因可以帮助我们在高维空间中继续探索:

  1. 真实数据常常被限制在较低维度的有效区间中。
  2. 真实数据通常比较光滑,对于输入变量的微小改变不会对输出数据造成较大影响,因此对于局部可以考虑采用插值法来进行处理。
1.5 决策论

(1)最小化错误分类率、最大化正确分类率

将每个输入样本x都被分类到最大后验概率 p ( x , C k ) p(x,C_k) p(x,Ck)的类别中。
min ⁡ p ( m i s t a k e ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x \min p(mistake) = p(x \in R_1, C_2) + p(x \in R_2, C_1) = \int_{R_1} p(x,C_2)dx + \int_{R_2} p(x,C_1)dx minp(mistake)=p(xR1,C2)+p(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dx max ⁡ p ( c o r r e c t ) = ∑ k = 1 K p ( x ∈ R k , C k ) = ∑ k = 1 K ∫ R k p ( x , C k ) d x \max p(correct) = \sum_{k = 1}^K p(x \in R_k, C_k) = \sum_{k = 1}^K \int_{R_k} p(x,C_k)dx maxp(correct)=k=1Kp(xRk,Ck)=k=1KRkp(x,Ck)dx

(2)最小化期望损失

假设 L k j L_{kj} Lkj表示样本x原本属于k类却被分为j类的损失,那么最小化期望损失即:

min ⁡ E [ L ] = ∑ k ∑ j ∫ R j L k j p ( x , C k ) d x = ∑ k ∑ j ∫ R j L k j p ( C k ∣ x ) d x \min E[L] = \sum_k \sum_j \int_{R_j} L_{kj}p(x,C_k)dx = \sum_k \sum_j \int_{R_j} L_{kj}p(C_k|x)dx minE[L]=kjRjLkjp(x,Ck)dx=kjRjLkjp(Ckx)dx

(3)拒绝选项: 当最大后验概率小于某个设定的阈值时,选择不作出推断,交由人类专家。

(4)推断和决策

  • 生成式模型(generative models):对输入输出显式隐式地建模,可以通过采样人工生成数据点。而且可以通过求解得到边缘概率密度p(x),检测模型中低概率的新数据点(离群点检测/异常检测)。 max ⁡ i p ( y i ∣ x ) = p ( x ∣ y i ) p ( y i ) / C \max_i p(y_i|x)=p(x|y_i)p(y_i) / C maxip(yix)=p(xyi)p(yi)/C
  • 判别式模型(discriminative models):对后验概率 p ( y ∣ x ) p(y|x) p(yx)建模。
  • 判别函数(discriminant function):把输入x直接映射为类别标签。

(4)回归问题的损失函数

E [ L ] = ∫ ∫ L ( t , y ( x ) ) p ( x , t ) d x d t E[L] = \int\int L(t, y(x))p(x, t)dxdt E[L]=L(t,y(x))p(x,t)dxdt E [ L ] = ∫ ∫ { y ( x ) − t } 2 p ( x , t ) d x d t = ∫ { y − E [ t ∣ x ] } 2 p ( x ) d x + ∫ v a r [ t ∣ x ] p ( x ) d x E[L] = \int\int \{y(x)-t\}^2p(x, t)dxdt = \int \{y - E[t|x]\}^2p(x) dx + \int var[t|x]p(x) dx E[L]={y(x)t}2p(x,t)dxdt={yE[tx]}2p(x)dx+var[tx]p(x)dx

1.6 信息论

(1)信息量:

信息量 h(x) 可以被看作是在学习x值时的“惊讶程度”,且满足:
h ( x , y ) = h ( x ) + h ( y ) h(x, y) = h(x)+h(y) h(x,y)=h(x)+h(y) p ( x , y ) = p ( x ) p ( y ) p(x, y) = p(x)p(y) p(x,y)=p(x)p(y)
因为低概率的事件x应获得较高的信息量,因此h(x)应是如下形式:
h ( x ) = − ln ⁡ p ( x ) h(x) = -\ln p(x) h(x)=lnp(x)

(2)熵(entropy):

传输信息时得到的信息量的期望被称为“随机变量x的熵”:
H ( x ) = − ∑ x p ( x ) ln ⁡ p ( x ) = − ∫ p ( x ) ln ⁡ p ( x ) H(x) = -\sum_x p(x)\ln p(x) = -\int p(x)\ln p(x) H(x)=xp(x)lnp(x)=p(x)lnp(x)
高斯分布的微分熵:
H ( x ) = − ∫ p ( x ) ln ⁡ p ( x ) = 1 2 [ 1 + l n ( 2 π σ 2 ) ] H(x) = -\int p(x)\ln p(x) = \frac{1}{2}[1+ln(2\pi \sigma^2)] H(x)=p(x)lnp(x)=21[1+ln(2πσ2)]
联合概率分布的熵:
H [ x , y ] = H [ y ∣ x ] + H [ x ] = − ∫ ∫ p ( x , y ) ln ⁡ p ( x , y ) d y d x − ∫ p ( x ) ln ⁡ p ( x ) H[x, y] = H[y|x] + H[x] = -\int\int p(x,y)\ln p(x,y) dydx -\int p(x)\ln p(x) H[x,y]=H[yx]+H[x]=p(x,y)lnp(x,y)dydxp(x)lnp(x)

(3)KL(Kullback-Leibler)散度:

假设用分布 q(x) 拟合真实分布 p(x) ,用 q(x) 传输信息时需要的平均附加信息量被称为KL散度:
K L ( p ∣ ∣ q ) = − ∫ p ( x ) ln ⁡ q ( x ) d x − ( − ∫ p ( x ) ln ⁡ p ( x ) d x ) = − ∫ p ( x ) ln ⁡ { q ( x ) p ( x ) } d x KL(p || q) = -\int p(x)\ln q(x)dx - (-\int p(x)\ln p(x)dx) = -\int p(x)\ln\{ \frac{q(x)}{p(x)}\}dx KL(pq)=p(x)lnq(x)dx(p(x)lnp(x)dx)=p(x)ln{p(x)q(x)}dx

将Jensen不等式 f ( ∫ x p ( x ) d x ) ≤ ∫ f ( x ) p ( x ) d x f(\int xp(x)dx) \leq \int f(x)p(x)dx f(xp(x)dx)f(x)p(x)dx应用于KL散度:
K L ( p ∣ ∣ q ) = − ∫ p ( x ) ln ⁡ { q ( x ) p ( x ) } d x ≥ − ln ⁡ ∫ q ( x ) d x = 0 KL(p || q) = -\int p(x)\ln\{ \frac{q(x)}{p(x)}\}dx \geq -\ln \int q(x)dx = 0 KL(pq)=p(x)ln{p(x)q(x)}dxlnq(x)dx=0
因此, K L ( p ∣ ∣ q ) ≥ 0 KL(p || q) \geq 0 KL(pq)0,当且仅当 p ( x ) = q ( x ) p(x) = q(x) p(x)=q(x)时,等号成立。

最小化KL散度等价于最大化 q ( x ∣ θ ) q(x|\theta) q(xθ)的似然函数:
K L ( p ∣ ∣ q ) ≃ 1 N ∑ n = 1 N { − ln ⁡ q ( x n ∣ θ ) + ln ⁡ p ( x n ) } KL(p || q) \simeq \frac{1}{N} \sum_{n=1}^N \{ {-\ln q(x_n|\theta)} + \ln p(x_n) \} KL(pq)N1n=1N{lnq(xnθ)+lnp(xn)}

(4)互信息(mutual information):

对于联合概率分布而言,其KL散度被称为变量x和y之间的互信息。可以将互信息看作是由于知道了y值而造成的x值不确定性的减小:
I [ x , y ] = K L ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) = − ∫ ∫ p ( x , y ) ln ⁡ { p ( x ) p ( y ) p ( x , y ) } d x d y I[x, y] = KL(p(x, y) || p(x)p(y)) = -\int\int p(x,y)\ln\{ \frac{p(x)p(y)}{p(x,y)}\}dxdy I[x,y]=KL(p(x,y)p(x)p(y))=p(x,y)ln{p(x,y)p(x)p(y)}dxdy I [ x , y ] = H [ x ] − H [ x ∣ y ] = H [ y ] − H [ y ∣ x ] I[x, y] = H[x] - H[x|y] = H[y] - H[y|x] I[x,y]=H[x]H[xy]=H[y]H[yx]


注:以上所有内容均为个人归纳整理,欢迎指正/提问/讨论~

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值