【李航统计学习】学习笔记第七篇第六章:逻辑斯谛回归与最大熵模型


逻辑斯谛回归与最大熵模型都属于对数线性模型

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛回归分布

  1. 逻辑斯谛分布:设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:在这里插入图片描述
    在这里插入图片描述
    式中,μ为位置参数,γ>0为形状参数。

  2. 分布函数属于逻辑斯谛函数,其图形是一条S形曲线。该曲线以(μ,1/2)为中心对称。
    在这里插入图片描述

6.1.2 二项逻辑斯谛回归模型

  1. 二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布。

  2. 二项逻辑斯谛回归模型是如下的条件概率分布:在这里插入图片描述
    逻辑斯谛回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。

  3. 一个时间的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率(log odds)或logit函数在这里插入图片描述

    对逻辑斯谛回归而言,在这里插入图片描述
    这就是说,在逻辑斯谛回归模型中,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。线性函数值越接近无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。

6.1.3 模型参数估计

  1. 逻辑斯谛回归模型学习时,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。
  2. 对数似然函数为:在这里插入图片描述
    对L(w)求极大值,得到w的估计值。
  3. 逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

6.1.4 多项逻辑斯谛回归

  1. 上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型:在这里插入图片描述
    在这里插入图片描述

  2. 二项逻辑斯谛回归的参数估计也可推广到多项逻辑斯谛回归。

6.2 最大熵模型

6.2.1 最大熵原理

  1. 最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)时,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理可以表述为在满足约束条件的模型集合中取熵最大的模型。

  2. 假设离散随机变量X的概率分布是P(X),其熵是:在这里插入图片描述
    熵满足下列不等式:在这里插入图片描述
    |X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大。

  3. 直观的,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。

6.2.2 最大熵模型的定义

在这里插入图片描述
在这里插入图片描述
定义:

假设满足所有的约束条件的模型集合为:在这里插入图片描述
定义在条件概率分布P(Y|X)上的条件熵为:
在这里插入图片描述
则模型集合C中的条件熵H§最大的模型称为最大熵模型。式中的对数为自然对数。

6.2.3 最大熵模型的学习

1

2

3
4

5
这就是说,可以应用最优化算法求对偶函数的极大化,得到w*,用来表示P*。这里P*=Pw*=Pw*(y|x)是学习到的最优模型(最大熵模型)。也就是说,最大熵模型的学习归结为对偶函数的极大化。

6.2.4 极大似然估计

证明:对偶函数的极大化等价于最大熵模型的极大似然估计。

在这里插入图片描述
在这里插入图片描述
最大熵模型与逻辑斯谛回归模型有类似的形式,衙门又称为对数线性模型(log linear model)。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

6.3 模型学习的最优化算法

逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。从最优化的观点看,这时的目标函数具有很好的性质。他是光滑的凸函数,因此多种最优化的方法都适用,保证能找到全局最优解。常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。

6.3.1 改进的迭代尺度法(improved iterative scalling,IIS)

  1. 已知最大熵模型为:在这里插入图片描述
    在这里插入图片描述
    对数似然函数为:在这里插入图片描述
    目标为通过极大似然估计学习模型参数,即求对数似然函数的极大值。

  2. IIS的想法为:假设在这里插入图片描述
    希望找到一个新的参数向量在这里插入图片描述
    ,使得模型的对数似然函数值增大,如果有参数向量更新方法,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。

  3. 算法:
    在这里插入图片描述在这里插入图片描述

6.3.2 拟牛顿法

  1. 对于最大熵模型而言:在这里插入图片描述

    目标函数:
    在这里插入图片描述
    梯度:
    在这里插入图片描述
    在这里插入图片描述

  2. 最大熵模型学习的BFGS算法:

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值