统计学习方法(机器学习)——6、逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型

逻辑斯谛分布

定义 逻辑斯谛分布

        设 X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X有以下分布函数和密度函数:
F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ (1) F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-μ)/γ}} \tag1 F(x)=P(Xx)=1+e(xμ)/γ1(1)
f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 (2) f(x)=F'(x)=\frac{e^{-(x-μ)/γ}}{γ(1+e^{-(x-μ)/γ})^2} \tag2 f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ(2)
式子中的 μ μ μ为位置参数, γ > 0 γ>0 γ>0为形状参数。
        逻辑斯谛分布的密度函数 f ( x ) f(x) f(x)和分布函数 F ( x ) F(x) F(x)的图形如下所示。分布函数属于逻辑斯谛函数,其图形是一条 S S S形曲线,该曲线以点 ( μ , 1 2 ) (μ,\frac 1 2) (μ,21)为中心对称,即满足
F ( − x + μ ) − 1 2 = − F ( x − μ ) + 1 2 F(-x+μ)-\frac12=-F(x-μ)+\frac12 F(x+μ)21=F(xμ)+21
曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数 γ γ γ的值越小,曲线在中心附近增长的越快。
在这里插入图片描述


二项逻辑斯谛回归模型

        二项逻辑斯谛回归模型是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)表示,形式为参数化的逻辑斯谛分布。这里,随机变量 X X X取值为实数,随机变量 Y Y Y取值为1或0,通过监督学习的方法来估计模型参数。

定义 逻辑斯谛回归模型

        二项逻辑斯谛回归模型是如下的条件概率分布:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) (3) P(Y=1|x)=\frac{exp(w·x+b)}{1+exp(w·x+b)} \tag 3 P(Y=1x)=1+exp(wx+b)exp(wx+b)(3)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x + b ) (4) P(Y=0|x)=\frac{1}{1+exp(w·x+b)} \tag 4 P(Y=0x)=1+exp(wx+b)1(4)
这里, x ∈ R n x\in R^n xRn是输入, Y ∈ { 0 , 1 } Y\in \{0, 1\} Y{ 0,1}是输出, w ∈ R n w\in R^n wRn b ∈ R b\in R bR 是参数, w w w 称为权值向量, b b b 称为偏置, w ⋅ x w·x wx w w w x x x的内积。
        对于给定的输入实例 x x x,按照(3)(4)可以求得 P ( Y = 1 ∣ x ) P(Y=1|x) P(Y=1x) P ( Y = 0 ∣ x ) P(Y=0|x) P(Y=0x)。逻辑斯谛回归比较两个条件概率值的大小,将实例 x x x分到概率值较大的那一类。
        有时为了方便,将权值向量和输入向量加以扩充,仍记作 w , x w, x w,x,即 w = ( w ( 1 ) , w ( 2 ) , . . . , w ( n ) , b ) T , x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) , 1 ) T w=(w^{(1)}, w^{(2)}, ..., w^{(n)}, b)^T, x=(x^{(1)}, x^{(2)}, ..., x^{(n)}, 1)^T w=(w(1),w(2),...,w(n),b)T,x=(x(1),x(2),...,x(n),1)T。这时的逻辑斯谛回归模型如下:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) (5) P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)} \tag 5 P(Y=1x)=1+exp(wx)exp(wx)(5)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x ) (6) P(Y=0|x)=\frac{1}{1+exp(w·x)} \tag 6 P(Y=0x)=1+exp(wx)1(6)
        一个事件的几率是指该事件发生的概率于该事件不发生的概率的比值。如果事件发生的概率是 p p p,那么该事件的几率是 p 1 − p \frac p{1-p} 1pp ,该事件的对数几率(log odds)或logit函数是:
l o g i t ( p ) = l o g p 1 − p logit(p)=log\frac p{1-p} logit(p)=log1pp
        对于逻辑斯谛回归而言,由(5)(6)得:
l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x log\frac {P(Y=1|x)}{1-P(Y=1|x)}=w·x log1P(Y=1x)P(Y=1x)=wx
也就是说,在逻辑斯谛回归模型中,输出 Y = 1 Y=1 Y=1的对数几率是输入 x x x的线性函数。或者说,输出 Y = 1 Y=1 Y=1的对数几率是由输入 x x x的线性函数表示的模型,即逻辑斯谛回归模型。
        考虑对输入 x x x进行分类的线性函数 w ⋅ x w·x wx,其值域为实数域,这里 x ∈ R n + 1 , w ∈ R n + 1 x\in R^{n+1}, w\in R^{n+1} xRn+1,wRn+1,通过逻辑斯谛回归模型(5)可以将线性函数 w ⋅ x w·x wx转换为概率:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)} P(Y=1x)=1+exp(wx)exp(wx)
这时,线性函数 w ⋅ x w·x wx的值越接近正无穷,概率值越接近1;线性函数的值越接近负无穷,概率值就越接近0,即逻辑斯谛回归模型。


模型参数估计

        逻辑斯谛回归模型学习时,对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\} T={ (x1,y1),(x2,y2),...,(xN,yN)},其中, x i ∈ R n , y i ∈ { 0 , 1 } x_i\in R^n,y_i\in \{0, 1\} xiRnyi{ 0,1},可以用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。
        设
P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=π(x), P(Y=0|x)=1-π(x) P(Y=1x)=π(x),P(Y=0x)=1π(x)
似然函数为
∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^N\left[π(x_i) \right]^{y_i}\left[1-π(x_i) \right]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi
对数似然函数为
         L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ]                      = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ]        = ∑ i = 1 N [ y i ( w ⋅ x ) − l o g ( 1 + e x p ( w ⋅ x ) ) ] \;\;\;\;L(w)=\sum_{i=1}^N \left[y_ilogπ(x_i) +(1-y_i)log(1-π(x_i))\right] \\ \;\;\;\;\;\;\;\;\;\;=\sum_{i=1}^N \left[y_ilog\frac{π(x_i)}{1-π(x_i)} +log(1-π(x_i))\right] \\ \;\;\;=\sum_{i=1}^N \left[y_i(w·x)-log(1+exp(w·x))\right] L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilog1π(xi)π(xi)+log(1π(xi))]=i=1N[yi(wx)log(1+exp(wx))]
L ( w ) L(w) L(w)求极大值,得到 w w w的估计值。
        这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中常用的方法是梯度下降法拟牛顿法
假设 w w w的极大似然估计值是 w ^ \hat{w} w^,那么学到的逻辑斯谛回归模型为:
P ( Y = 1 ∣ x ) = e x p ( w ^ ⋅ x ) 1 + e x p ( w ^ ⋅ x ) P(Y=1|x)=\frac{exp(\hat{w}·x)}{1+exp(\hat{w}·x)} P(Y=1x)=1+exp(w^x)exp(w^x)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ^ ⋅ x ) P(Y=0|x)=\frac{1}{1+exp(\hat{w}·x)} P(Y=0x)=1+exp(w^x)1


多项逻辑斯谛回归

        可以将二项分类模型推广到多项逻辑斯谛回归模型,用于多类分类。假设离散型随机变量 Y Y Y的取值集合是 { 1 , 2 , . . . , K } \{1, 2, ..., K\} { 1,2,...,K},多项逻辑斯谛回归模型是:
P ( Y =

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值