机器学习理论《统计学习方法》学习笔记:第六章 逻辑斯谛回归与最大熵模型

6 逻辑斯谛回归与最大熵模型

逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

逻辑斯谛分布:设 X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X具有下列分布函数和密度函数:
F ( x ) = p ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ F(x)=p(X\le x)={{1}\over{1+e^{-(x-\mu)/\gamma}}} F(x)=p(Xx)=1+e(xμ)/γ1
f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F^{'}(x)={{e^{-(x-\mu)/\gamma}}\over{\gamma({1+e^{-(x-\mu)/\gamma}}})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ
μ \mu μ为位置参数, γ > 0 \gamma \gt 0 γ>0为形状参数。
逻辑斯谛分布的密度函数 f ( x ) f(x) f(x)和分布函数 F ( x ) F(x) F(x)的图像如下。
在这里插入图片描述
分布函数属于逻辑斯谛函数,其图形是一条S形曲线,以点 ( μ , 1 2 ) (\mu,{1\over 2}) (μ,21)为中心对称,即满足
F ( − x + μ ) − 1 2 = − F ( x + μ ) + 1 2 F(-x+\mu)-{1\over2}=-F(x+\mu)+{1\over2} F(x+μ)21=F(x+μ)+21
曲线在中心附近增长速度快,在两端增长速度慢。形状参数 γ \gamma γ的值越小,曲线在中心附近增长得越快。

6.1.2 二项逻辑斯蒂回归模型

二项逻辑斯谛回归模型是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)表示,形式为参数化得逻辑斯谛分布。这里,随机变量 X X X取值为实数,随机变量 Y Y Y取值为1或0.通过监督学习的方法来估计模型参数。

逻辑斯谛回归模型
二 项 逻 辑 斯 谛 回 归 模 型 是 如 下 的 条 件 概 率 分 布 : 二项逻辑斯谛回归模型是如下的条件概率分布:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) P(Y=1|x)={{exp(w\cdot x+b)}\over{1+exp(w\cdot x+b)}} P(Y=1x)=1+exp(wx+b)exp(wx+b)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x + b ) P(Y=0|x)={{1}\over{1+exp(w\cdot x+b)}} P(Y=0x)=1+exp(wx+b)1
x ∈ R n 是 输 入 , Y ∈ { 0 , 1 } 是 输 出 , w ∈ R n 和 b ∈ R 是 参 数 , w 称 为 权 值 向 量 , b 称 为 偏 置 , w ⋅ x 是 w 和 x 的 内 积 。 x\in R^n是输入,Y\in\{0,1\}是输出,w\in R^n和b\in R是参数,w称为权值向量,b称为偏置,w\cdot x是w和x的内积。 xRnY{0,1}wRnbRwbwxwx

有 时 为 了 方 便 , 将 权 值 向 量 和 输 入 向 量 加 以 扩 充 , 仍 记 作 w 和 x , 即 w = ( w ( 1 ) , w ( 2 ) , ⋯   , w ( n ) , b ) T , x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) , 1 ) T . 此 时 , 逻 辑 斯 谛 回 归 模 型 如 下 : 有时为了方便,将权值向量和输入向量加以扩充,仍记作w和x,即w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T,x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)^T.此时,逻辑斯谛回归模型如下: 便wxw=(w(1),w(2),,w(n),b)T,x=(x(1),x(2),,x(n),1)T.
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) P(Y=1|x)={{exp(w\cdot x)}\over{1+exp(w\cdot x)}} P(Y=1x)=1+exp(wx)exp(wx)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x ) P(Y=0|x)={{1}\over{1+exp(w\cdot x)}} P(Y=0x)=1+exp(wx)1

现在考察逻辑斯谛回归模型的特点。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是 p 1 − p {p\over{1-p}} 1pp,该事件的对数几率(log odds)或logit函数是 l o g i t ( p ) = l o g p 1 − p logit(p)=log{p\over{1-p}} logit(p)=log1pp,对逻辑斯谛回归而言: l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x log{{P(Y=1|x)}\over{1-P(Y=1|x)}}=w\cdot x log1P(Y=1x)P(Y=1x)=wx

在逻辑斯谛回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。

换一个角度看,考虑对输入x进行分类的线性函数 w ⋅ x w\cdot x wx,其值域为实数域, x ∈ R n + 1 , w ∈ R n + 1 x\in R^{n+1},w\in R^{n+1} xRn+1,wRn+1.通过逻辑斯谛回归模型的定义式,可以将线性函数 w ⋅ x w\cdot x wx转换为概率: P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) P(Y=1|x)={{exp(w\cdot x)}\over{1+exp(w\cdot x)}} P(Y=1x)=1+exp(wx)exp(wx)这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.

6.1.3 模型参数估计

逻辑斯谛回归模型学习时,对于给定的训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) } T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\} T={(x1,y1),(x2,y2),,(xn,yn)}
其 中 , x i ∈ R n , y i ∈ { 0 , 1 } 其中,x_i\in R^n,y_i\in\{0,1\} xiRn,yi{0,1}
可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。

设: P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x) P(Y=1x)=π(x),P(Y=0x)=1π(x)
似然函数为: ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi
对数似然函数为:
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ] L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i)] L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi)]
= ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] =\sum_{i=1}^N[y_ilog{{\pi(x_i)}\over{1-\pi(x_i)}}+log(1-\pi(x_i))] =i=1N[yilog1π(xi)π(xi)+log(1π(xi))]
= ∑ i = 1 N [ y i ( w ⋅ x i ) − l o g ( 1 + e x p ( w ⋅ x i ) ) ] =\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+exp(w\cdot x_i))] =i=1N[yi(wxi)log(1+exp(wxi))]
对 L ( w ) 求 极 大 值 , 得 到 w 的 估 计 值 。 对L(w)求极大值,得到w的估计值。 L(w)w

6.1.4 多项逻辑斯谛回归

二项逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型,用于多分类。假设离散型随机变量Y的取值集合是{1,2,…,K},那么多项逻辑斯谛回归模型是:
P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) , k = 1 , 2 , ⋯   , K − 1 P(Y=k|x)={{exp(w_k\cdot x)}\over{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)}},k=1,2,\cdots,K-1 P(Y=kx)=1+k=1K1exp(wkx)exp(wkx),k=1,2,,K1
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) P(Y=K|x)={{1}\over{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)}} P(Y=Kx)=1+k=1K1exp(wkx)1
这 里 , x ∈ R n + 1 , w k ∈ R n + 1 这里,x\in R^{n+1},w_k\in R^{n+1} xRn+1,wkRn+1

6.2 最大熵模型

6.2.1 最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中,选取熵最大的模型。

假设离散随机变量 X X X的概率分布是 P ( X ) P(X) P(X),则其熵是
H ( P ) = − ∑ x P ( x ) l o g P ( x ) H(P)=-\sum_xP(x)logP(x) H(P)=xP(x)logP(x)
熵满足下列不等式:
0 ≤ H ( P ) ≤ l o g ∣ X ∣ 0\le H(P)\le log|X| 0H(P)logX
式子中, ∣ X ∣ |X| X X X X的取值个数,当且仅当 X X X的分布是均匀分布时,右边的等号成立。这就是说,当 X X X服从均匀分布时,熵最大。

直观地,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是等可能的。最大熵原理通过熵的最大化来表示可能性。等可能不容易操作,而熵则是一个可优化的数值指标。

概率模型集合图提供了用最大熵原理进行概率模型选择的几何解释。
在这里插入图片描述
概率模型集合 ρ \rho ρ可由欧氏空间中的单纯形(simplex)表示,如左图的三角形。一个点代表一个模型,整个单纯形代表整个集合。右图上的一条直线对应于一个约束条件,直线的交集对应于满足所有约束条件的模型集合。一般地,这样的模型仍有无穷多个,学习的目的是在可能的模型集合中选择最优模型,而最大熵原理给出最优模型选择的一个准则。

6.2.2 最大熵模型的定义

最大熵原理是统计学习的一般原理,将它应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX).这个模型表示的是对于给定的输入X,以条件概率 P ( Y ∣ X ) P(Y|X) P(YX)输出Y。
给一个训练集 T = { ( x 1 , y 1 ) , ( x 1 , y 1 ) , ⋯   , ( x 1 , y 1 ) } T=\{(x_1,y_1),(x_1,y_1),\cdots,(x_1,y_1)\} T={(x1,y1),(x1,y1),,(x1,y1)}学习的目标是最大熵原理选择最好的分类模型。
用特征函数 f ( x , y ) f(x,y) f(x,y)描述输入x和输出y之间的某一个事实。其定义是
f ( x , y ) = { 1 , x与y满足某一事实 0 , 否则 f(x,y)= \begin{cases} 1,& \text{x与y满足某一事实}\\ 0,&\text{否则} \end{cases} f(x,y)={1,0,xy满足某一事实否则
它是一个二值函数,当x和y满足这个事实时取值为1,否则取值为0.

最大熵模型
假 设 满 足 所 有 约 束 条 件 的 模 型 为 假设满足所有约束条件的模型为
C ≡ { P ∈ P ∣ E p ~ ( f i ) , i = 1 , 2 , ⋯   , n } C\equiv\{P\in\Rho|E_{\tilde{p}}(f_i),i=1,2,\cdots,n\} C{PPEp~(fi),i=1,2,,n}
定 义 在 条 件 概 率 分 布 P ( Y ∣ X ) 上 的 条 件 熵 为 定义在条件概率分布P(Y|X)上的条件熵为 P(YX)
H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) H(P)=x,yP~(x)P(yx)logP(yx)
则 模 型 集 合 C 中 条 件 熵 H ( P ) 最 大 的 模 型 称 为 最 大 熵 模 型 , 式 子 中 的 对 数 为 自 然 对 数 。 则模型集合C中条件熵H(P)最大的模型称为最大熵模型,式子中的对数为自然对数。 CH(P)

6.2.3 最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。

对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}
以及特征函数 f i ( x , y ) , i = 1 , 2 , ⋯   , n f_i(x,y),i=1,2,\cdots,n fi(x,y),i=1,2,,n,最大熵模型的学习等价于约束最优化问题:
m a x P ∈ C H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) max_{P\in C}H(P)=-\sum_{x,y}{\tilde{P}}(x)P(y|x)logP(y|x) maxPCH(P)=x,yP~(x)P(yx)logP(yx)
s . t .     E P ( f i ) = E P ~ ( f i ) , i = 1 , 2 , ⋯   , n s.t.\space\space\space E_P(f_i)= E_{\tilde{P}}(f_i),i=1,2,\cdots,n s.t.   EP(fi)=EP~(fi),i=1,2,,n
∑ y P ( y ∣ x ) = 1 \sum_yP(y|x)=1 yP(yx)=1

6.2.4 极大似然估计

下面证明对偶函数的极大化等价于最大熵模型的极大似然估计。
最大熵模型与逻辑斯谛回归模型有类似的形式,它们又称为对数线性模型。模型学习就是在给定的训练数据下,对模型进行极大似然估计或正则化的极大似然估计。

6.3 模型学习的最优化算法

逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。从最优化的观点看,这时的目标函数具有很好的性质。它是光滑的凸函数,因此多种最优化的方法都适用,保证能找到全局最优解。
常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。

6.3.1 改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling,IIS)是一种最大熵模型学习的最优化算法。
已知最大熵模型为 P w ( y ∣ x ) = 1 Z w ( x ) ( ∑ i = 1 n w i f i ( x , y ) ) P_w(y|x)={{1}\over{Z_w(x)}}(\sum_{i=1}^nw_if_i(x,y)) Pw(yx)=Zw(x)1(i=1nwifi(x,y))
其中, Z w ( x ) = ∑ y e x p ( ∑ i = 1 n w i f i ( x , y ) ) Z_w(x)=\sum_yexp(\sum_{i=1}^nw_if_i(x,y)) Zw(x)=yexp(i=1nwifi(x,y))
对数似然函数为 L ( w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\tilde{P}(x)logZ_w(x) L(w)=x,yP~(x,y)i=1nwifi(x,y)xP~(x)logZw(x)
目标是通过极大似然估计学习模型参数,即求对数似然函数的极大值 w ^ \hat w w^

IIS的想法是:假设最大熵模型当前的参数向量是 w = ( w 1 , w 2 , ⋯   , w n ) T w=(w_1,w_2,\cdots,w_n)^T w=(w1,w2,,wn)T,希望找到一个新的参数向量 w + δ = ( w 1 + δ 1 , w 2 + δ 2 , ⋯   , w n + δ n ) T w+\delta=(w_1+\delta_1,w_2+\delta_2,\cdots,w_n+\delta_n)^T w+δ=(w1+δ1,w2+δ2,,wn+δn)T,使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法 τ : w → w + δ \tau:w\rightarrow w+\delta τ:ww+δ,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。

6.3.2 拟牛顿法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值