<统计学习方法>5 逻辑斯蒂回归与最大熵模型

最新推荐文章于 2021-03-24 04:10:46 发布

DaxinPai

最新推荐文章于 2021-03-24 04:10:46 发布

阅读量315

点赞数

分类专栏： algorithm

本文链接：https://blog.csdn.net/u013036695/article/details/77918000

版权

algorithm 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

                    
                    逻辑斯蒂回归（logistic regression）是一种分类方法
最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵（maximum entropy）模型
两者都属于对数线性模型
 
逻辑斯蒂回归模型 
逻辑斯蒂分布 
定义：设 X 是连续随机变量， X服从逻辑斯蒂分布是指 X 具有下列分布函数和密度函数： 
 
     F(x)=P(X≤x)=11+e−(x−μ)/γ 
     
     f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2 
     
      μ 
      为位置参数，  
      
      γ 
      为形状参数
分布函数属于逻辑斯蒂函数，其图形式一条S形曲线（sigmoid curve），该曲线以点  
      
      (μ,12) 
      为中心对称，即满足： 
 
       F(−x+μ)−12=−F(x−μ)+12 
       
曲线在中心附近增长速度较快，在两端增长速度较慢，形状参数  
      
      γ 
      的值越小，曲线在中心附近增长得越快
 
二项逻辑斯蒂回归模型 
二项逻辑斯回归模型是一种分类模型，由条件概率分布 P(Y|X) 表示，形式为参数化的逻辑斯谛分布
定义：二项逻辑斯回归模型是如下的条件概率分布： 
 
     P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b) 
     
     P(Y=0|x)=11+exp(w⋅x+b) 
     
      x∈Rn 
      是输入，  
      
      Y∈{0,1} 
     ， 
      
      w∈Rn 
      和  
      
      b∈R 
      是参数，w 称为权值向量，b 称为偏置 
若将 w ,b 写成更简洁的形式，多加一维度就好:  
      
      w=(w(1),w(2),…,w(n),b)T 
     ,  
      
      x=(x(1),x(2),…,x(n),1)T 
     
对于给定的输入实例 x , 按照上式求出两个条件概率，哪个大就将实例 x 归类到哪一类
逻辑斯回归模型特点 
 
  一个事件的几率（odds）指该事件发生的概率与该事件不发生的概率的比值，若一个事件发生的概率是 p, 那么该事件的几率为  
      
      p1−p 
     ，该事件的对数几率(log odds) 或 logit 函数是： 
 
       logit(p)=logp1−p 
       
用上面两个条件概率代入可得: 
 
       logP(Y=1|x)1−P(Y=1|x)=w⋅x 
       
即是说，在该模型中，输出Y=1的对数几率是输入 x 的线性函数
 
模型参数估计 
用极大似然法估计模型参数： 
 
  设  
      
       P(Y=1|x)=π(x),P(Y=0|x)=1−π(x) 
       
似然函数为 
      
       ∏i=1N[π(xi)]yi[1−π(xi)]1−yi 
       
对数似然函数为 
      
       L(w)=∑i=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]=∑i=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]=∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))] 
       
对L(w) 求极大值，得到 w 的估计值
这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法
 
多项逻辑斯蒂回归 
上面的逻辑斯谛回归模型是二项分布模型，属于二类分类，可以将其推广为多项逻辑斯谛回归模型
假设离散型随机变量Y 的取值集合是  
    
    {1,2,⋯,K} 
   ，则多项逻辑斯谛回归模型为 
    
     P(Y=k|x)=exp(wk⋅x)1+∑K−1k=1exp(wk⋅x)，k=1,2,⋯,K−1 
     
     P(Y=K|x)=11+∑K−1k=1exp(wk⋅x) 
     
最大熵模型 
最大熵原理 
最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。
通常用约束条件来确定概率模型的集合
假设离散随机变量 X 的概率分布是 P(X)，则其熵为 
    
     H(P)=−∑xP(x)logP(x) 
     
熵满足以下不等式:  
      
       0≤H(P)≤log|X| 
       
|X| 是 X 的取值个数，当且仅当X的分布是均匀分布时右边的等号成立：即 X 服从均匀分布时，熵最大
 
最大熵模型的定义 
即是用最大熵原理选择最好的分类的模型
假设满足所有约束条件的模型集合为 
 
     C≡{P∈P|EP(fi)=EP~(fi)} 
     
其中  
      
      EP~(fi) 
      表示特征函数  
      
      fi(x,y) 
      关于经验分布  
      
      P~(X,Y) 
     的期望值 （经验分布指训练数据的分布）
上述的特征函数(feature function)  
      
      fi(x,y) 
     是个二值函数，当 x y 满足这个事实时取值为1， 否则取0
 
      EP~(fi) 
      是特征函数关于经验分布  
      
      P~(X,Y) 
      的期望值， 
      
      EP~(fi)=∑x,yP~(x,y)fi(x,y) 
     
定义在条件概率分布  
    
    P(Y|X) 
    上的条件熵为 
    
     H(P)=∑x,yP~(x)P(y|x)logP(y|x) 
     
则模型集合 
    
    C 
    中条件熵H(P)最大的模型称为最大熵模型，式中对数为自然对数
 
最大熵模型的学习 
最大熵模型的学习过程就是求解最大熵模型的过程，可以形式化为约束最优化问题
思路如下： 
 
  该优化问题为： 
      
       maxP∈CH(P)=−∑x,yP~(x)P(y|x)logP(y|x) 
       
       s.t.EP(fi)=EP~(fi),i=1,2,⋯,n 
       
       ∑yP(y|x)=1 
       
将约束最优化的原始问题转换为无约束最优化的对偶问题，通过求解对偶问题求解原始问题：用 拉格朗日函数
对偶后，对拉格朗日函数求偏导
 
极大似然估计 
对偶函数的极大化等价于最大熵模型的极大似然估计
 
模型学习的最优化算法 
逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题
通常通过迭代算法求解
从优化角度，常用的方法为：改进的迭代尺度法，梯度下降法，牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快
 
改进的迭代尺度法 
改进的迭代尺度法（improved iterative scaling, IIS）是一种最大熵模型学习的最优化算法
 
拟牛顿法