第6章 逻辑斯蒂回归与熵模型
线性回归是逻辑斯蒂回归的基础,线性回归是真正的连续值的回归问题,逻辑回归得到的是概率值,解决的是二分类问题。
LR(logistic regression, 逻辑斯蒂回归)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。
LR与最大熵模型都属于对数线性模型。
1.逻辑斯蒂分布
2.二项逻辑回归模型
二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化逻辑斯蒂分布。
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
如果时间发生的概率是p,那么该事件的几率是p/(1-0),该事件的对数几率(log odds)或logit函数是
3.参数估计
4.多项逻辑斯蒂回归
二项分类模型,用于二类分类。
多项逻辑斯蒂回归模型,用于多类分类。
5.最大熵模型
最大熵模型由最大熵原理推导实现。
最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。所以,最大熵原理也可以表述为在满足约束条件的模型中选取熵最大的模型。
6.最大熵模型的定义
7.最大熵模型的学习
最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。
> 最大熵模型作为分类方法的优缺点:
最大熵模型的优点有:
a) 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。
b) 可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度
最大熵模型的缺点有:
a) 由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难。
8.模型学习的最优化算法
逻辑斯蒂回归模型、最大熵模型学习归结为以似然函数为目标的最优化问题,通常通过迭代算法求解。
常用的方法由改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。
改进的迭代尺度法(IIS)
拟牛顿法(BFGS)
逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。