介绍(Introduction):
logistics回归是统计学习方法中的经典分类方法。最大熵是概率模型学习的一个准则。将其推广到分类问题得到最大熵模型(Maxmium Entorpy Model)。logistics回归和最大熵模型都是线性对数模型。
6.1 logistics回归模型:
logistics 分布(logistics distribution):
分布函数:
概率密度:
二项logistics回归:
, , 其中,
几率(odds):事件发生的概率和不发生的概率的比值,对数几率为:,即输出的对数几率是的线性函数。
极大似然法参数估计:
设:, 则似然函数为:,其中
对数似然函数:
最优化对数似然函数的方法有梯度下降法和拟牛顿法。
6.2 最大熵模型:
最大熵模型:在所有可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理可以表述为在满足约束条件下选择熵最大的模型。可以证明,当且仅当变量服从均匀分布时,熵最大。
联合概率分布和边缘分布的经验分布分别为和, ,
特征函数描述与的某一事实。记为:
关于经验分布的期望记为:,
关于经验分布的期望记为:
条件约束满足:
条件熵最大的熵模型: s.t ,的最优化问题:
条件熵最大的最大熵模型求解方法:拉格朗乘数法:
最优化原始问题的对偶问题。对求导,令倒数为0,结合约束条件2,求得:
, , 得:
,其中,称为泛化因子。
结论:对偶函数的极大化等价于最大熵模型的极大似然估计。
6.3 模型优化算法:
改进的迭代尺度法(imporved iterative scaling, IIS):
输入:特征函数,经验分布和模型
输出:最优参数值和最优模型
(1) 对所有,取初值
(2) 对每一个,a: 令是方程的解,b:更新
(3) 如果不是所有都收敛,重复(2)。
拟牛顿法(BFGS):
输入:特征函数,经验分布,目标函数,梯度,精度
输出:最优参数值和最优模型
6.4 logistics回归与朴素贝叶斯:
相同点:
都是对数特征的线性函数,都属于概率模型;
不同点:
A:logistics回归是判别模型,最大化判别函数,不需要知道和
朴素贝叶斯是生成模型,首先计算先验和似然函数,最后生成概率
B:在独立同分布假设条件下,朴素贝叶斯和logistics均具有较好的表达能力,当数据不满足条件时,logistics通过调 整参数仍能得到优化解
C:朴素贝叶斯数据需求量为,logistics回归数据需求量为
D:朴素贝叶斯不需要调参,优化更简单。