【机器学习基础】概率判别式模型

本系列为《模式识别与机器学习》的读书笔记。

一,概率判别式模型

考察⼆分类问题,对于⼀⼤类的类条件概率密度 p ( x ∣ C k ) p(\boldsymbol{x}|\mathcal{C}_k) p(xCk) 的选择, 类别 C 1 \mathcal{C}_1 C1 后验概率分布可以写成作⽤于 x \boldsymbol{x} x 的线性函数上的logistic sigmoid函数的形式。类似地,对于多分类的情形,类别 C k \mathcal{C}_k Ck 的后验概率由 x \boldsymbol{x} x 的线性函数的softmax变换给出。对于类条件概率密度 p ( x ∣ C k ) p(\boldsymbol{x}|\mathcal{C}_k) p(xCk) 的具体的选择, 我们已经使⽤了最⼤似然⽅法估计了概率密度的参数以及类别先验 p ( C k ) p(\mathcal{C}_k) p(Ck) ,然后使⽤贝叶斯定理就可以求出后验类概率。
寻找⼀般的线性模型参数的间接⽅法是,分别寻找类条件概率密度和类别先验,然后使⽤贝叶斯定理。

1,固定基函数

考虑直接对输⼊向量 ( x ) (x) (x) 进⾏分类的分类模型,然⽽,如果⾸先使⽤⼀个基函数向量 ϕ ( x ) \boldsymbol{\phi}(\boldsymbol{x}) ϕ(x) 对输⼊变量进⾏⼀个固定的⾮线性变换,所有的这些算法仍然同样适⽤,最终的决策边界在特征空间 ϕ \boldsymbol{\phi} ϕ 中是线性的,因此对应于原始 x \boldsymbol{x} x 空间中的⾮线性决策边界。在特征空间 ϕ ( x ) \boldsymbol{\phi}(\boldsymbol{x}) ϕ(x) 线性可分的类别未必在原始的观测空间 x \boldsymbol{x} x 中线性可分,基函数中的某⼀个通常设置为常数,例如 ϕ 0 ( x ) = 1 \phi_{0}(\boldsymbol{x})=1 ϕ0(x)=1 ,使得对应的参数 w 0 w_0 w0 扮演偏置的作⽤。

2,logistic回归

考虑⼆分类问题在⼀般的假设条件下,类别 C 1 \mathcal{C}_1 C1 的后验概率可以写成作⽤在特征向量 ϕ \boldsymbol{\phi} ϕ 的线性函数上的logistic sigmoid函数的形式,即

p ( C 1 ∣ ϕ ) = y ( ϕ ) = σ ( w T ϕ ) (4.55) p(\mathcal{C}_1|\boldsymbol{\phi})=y(\boldsymbol{\phi})=\sigma(\boldsymbol{w}^T\boldsymbol{\phi})\tag{4.55} p(C1ϕ)=y(ϕ)=σ(wTϕ)(4.55)

p ( C 2 ∣ ϕ ) = 1 − p ( C 1 ∣ ϕ ) p(\mathcal{C}_2|\boldsymbol{\phi})=1-p(\mathcal{C}_1|\boldsymbol{\phi}) p(C2ϕ)=1p(C1ϕ) σ ( ⋅ ) \sigma(·) σ()logistic sigmoid函数。使⽤统计学的术语,这个模型被称为 logistic回归 ,特别注意,这是⼀个分类模型⽽不是回归模型。对于⼀个 M M M 维特征空间 ϕ \boldsymbol{\phi} ϕ ,这个模型有 M M M 个可调节参数。

现在使⽤最⼤似然⽅法来确定logistic回归模型的参数。使⽤logistic sigmoid函数的导数

d σ d a = σ ( 1 − σ ) (4.56) \frac{\mathrm{d}\sigma}{\mathrm{d}a}=\sigma(1-\sigma)\tag{4.56} dadσ=σ(1σ)(4.56)

对于⼀个数据集 ϕ n \boldsymbol{\phi}_n ϕn , t n t_n tn ,其中 t n ∈ { 0 , 1 } t_n\in\{0,1\} tn{ 0,1} ϕ n = ϕ ( x n ) \boldsymbol{\phi}_n=\boldsymbol{\phi}(\boldsymbol{x}_n) ϕn=ϕ(xn) ,并且 n = 1 , … , N n=1,\dots,N n=1,,N,似然函数可以写成

p ( t ∣ w ) = ∏ n = 1 N y n t n { 1 − y n } 1 − t n (4.57) p(\mathbf{t}|\boldsymbol{w})=\prod_{n=1}^{N}y_{n}^{t_n}\{1-y_n\}^{1-t_n}\tag{4.57} p(tw)=n=1Nyntn{ 1yn}1tn(4.57)

其中 t = ( t 1 , … , t N ) T \mathbf{t} = (t_1,\dots,t_N)^T t=(t1,,tN)T y n = p ( C 1 ∣ ϕ n ) y_n=p(\mathcal{C}_1|\boldsymbol{\phi}_n) yn=p(C1ϕn) 。通过取似然函数的负对数的⽅式,定义⼀个误差函数,这种⽅式产⽣了交叉熵cross-entropy)误差函数,形式为

E ( w ) = − ln ⁡ p ( t ∣ w ) = − ∑ n = 1 N { t n ln ⁡ y n + ( 1 − t n ) ln ⁡ ( 1 − y n ) } (4.58) E(\boldsymbol{w})=-\ln p(\mathbf{t}|\boldsymbol{w}) = -\sum_{n=1}^{N}\{t_n\ln y_{n}+(1-t_n)\ln(1-y_n)\}\tag{4.58} E(w)=lnp(tw)=n=1N{ tnlnyn+(1tn)ln(1yn)}(4.58)

其中 y n = σ ( a n ) y_n=\sigma(a_n) yn=σ(an) a n = w T ϕ n a_n=\boldsymbol{w}^{T}\boldsymbol{\phi}_n an=wTϕn 。两侧关于 w \boldsymbol{w} w 取误差函数的梯度,有

∇ E ( w ) = − ∑ n = 1 N ( y n − t n ) ϕ n (4.59) \nabla E(\boldsymbol{w})= -\sum_{n=1}^{N}(y_n-t_n)\boldsymbol{\phi}_n\tag{4.59} E(w)=n=1N(yntn)ϕn(4.59)

3,迭代重加权最⼩平⽅

误差函数可以通过⼀种⾼效的迭代⽅法求出最⼩值,这种迭代⽅法基于Newton-Raphson迭代最优化框架, 使⽤了对数似然函数的局部⼆次近似。为了最⼩化函数 E ( w ) E(\boldsymbol{w}) E(w)Newton-Raphson对权值的更新形式为(Fletcher, 1987; Bishop and Nabney, 2008)

w 新 = w 旧 − H − 1 ∇ E ( w ) (4.60) \boldsymbol{w}^{新}=\boldsymbol{w}^{旧}-\boldsymbol{H}^{-1}\nabla E(\boldsymbol{w})\tag{4.60} w=wH1E(w)(4.60)

其中 H \boldsymbol{H} H 是⼀个 Hessian矩阵,它的元素由 E ( w ) E(\boldsymbol{w}) E(w) 关于 w \boldsymbol{w} w 的⼆阶导数组成。

⾸先,把Newton-Raphson⽅法应⽤到线性回归模型上,误差函数为平⽅和误差函数。这个误差函数的梯度和Hessian矩阵为

∇ E ( w ) = ∑ n = 1 N ( w T ϕ n − t n ) ϕ n = Φ T Φ w − Φ T t (4.61) \nabla E(\boldsymbol{w})=\sum_{n=1}^{N}(\boldsymbol{w}^{T}\boldsymbol{\phi}_n-t_n)\boldsymbol{\phi}_n=\boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\boldsymbol{w}-\boldsymbol{\Phi}^{T}\mathbf{t}\tag{4.61} E(w)=n=1N(wTϕntn)ϕn=ΦTΦwΦTt(4.61)

H = ∇ ∇ E ( w ) = ∑ n = 1 N ϕ n ϕ n T = Φ T Φ (4.62) \boldsymbol{H}=\nabla\nabla E(\boldsymbol{w})=\sum_{n=1}^{N}\boldsymbol{\phi}_n\boldsymbol{\phi}_{n}^{T}=\boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\tag{4.62} H=E(w)=n=1NϕnϕnT=ΦTΦ(4.62)

其中 Φ \boldsymbol{\Phi} Φ N × M N \times M N×M 矩阵,第 n n n ⾏为 ϕ n T \boldsymbol{\phi}_{n}^{T} ϕnT 。于是,Newton-Raphson更新形式为

w 新 = w 旧 − ( Φ T Φ ) − 1 { Φ T Φ w 旧 − Φ T t } = ( Φ T Φ ) − 1 Φ T t (4.63) \begin{aligned}\boldsymbol{w}^{新}&=\boldsymbol{w}^{旧}-(\boldsymbol{\Phi}^{T}\boldsymbol{\Phi})^{-1}\{\boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\boldsymbol{w}^{旧}-\boldsymbol{\Phi}^{T}\mathbf{t}\}\\&=(\boldsymbol{\Phi}^{T}\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^{T}\mathbf{t}\end{aligned}\tag{4.63} w=w(ΦTΦ)1{ ΦTΦwΦTt}=(ΦTΦ)1ΦTt(4.63)

这是标准的最⼩平⽅解。

现在,把Newton-Raphson更新应⽤到logistic回归模型的交叉熵误差函数上。这个误差函数的梯度和Hessian矩阵为
∇ E ( w ) = ∑ n = 1 N ( y n − t n ) ϕ n = Φ T ( y − t ) (4.64) \nabla E(\boldsymbol{w})=\sum_{n=1}^{N}(y_n-t_n)\boldsymbol{\phi}_n=\boldsymbol{\Phi}^{T}(\mathbf{y}-\mathbf{t})\tag{4.64} E(w)=n=1N(yntn)ϕn<

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值