第六章 统计学习方法-逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法。

最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。

逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。

6.1.1 逻辑斯蒂分布

设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:

式中,u为位置参数,y>0为形式参数

6.1.2 二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯蒂分布。随机变量X取值为实数,随机变量Y取值为1或0。

逻辑斯蒂回归模型:二项逻辑斯蒂回归模型是如下的条件概率分布:

6.1.3  模型参数估计

逻辑斯蒂回归模型学习时,对于给定的训练数据集T = {(x1,y1),(x2,y2),...,(x_{}n,yn)},其中,可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。

设:

似然函数:

对数似然函数:

6.1.4 多逻辑斯蒂回归

多项逻辑斯蒂回归模型(multi-nominal logistic regression model):

6.2 最大熵模型(maximum entropy model)

6.2.1 最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型。通常用约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

                                    

6.2.2 最大熵的定义

给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,

              

其中,v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数,v(X = x)表示训练数据中输入x出现的频数,N表示训练样本容量。    

用特征函数(feature function) f(x,y)描述输入x和输出Y之间的某一个事实。其定义是

              

特征函数f(x,y)关于经验分布P~(X,Y)的期望值,用EP~(f)表示:

            

特征函数f(x,y)关于模型P(Y|X)与经验分布P~(X)的期望值,用EP(f)表示,

            

约束条件为

           

6.2.3 最大熵模型学习

最大熵模型的学习过程就是求解最大熵模型的过程,可以形式化为约束最优化问题:

转化为 

将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求原解始问题。

  

 

6.2.4 极大似然估计

最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计,最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。

对数似然函数为:

 

最大熵模型的一般形式为:

6.3 模型学习的最优化算法

基于改进的迭代尺度法(improved iterative scaling, IIS)的最大熵模型学习算法

IIS的想法是假设最大嫡模型当前的参数向量是w=(w1,w2, ..., wn)T,我们希望找到一个新的参数向量w + sigmal =(w1+sigmal1, ..., wn+sigmaln)T,使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法:w-->w + sigma,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。

          

6.3.2 拟牛顿法

对于最大熵而言:

目标函数:

梯度:

拟牛顿算法:

 

补充一个牛顿算法:

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值