第六章讲逻辑斯蒂回归模型和最大熵模型,这两个模型都属于对数线性模型。这两个模型学习一般采用极大似然估计,或正则化的 极大似然估计。逻辑斯蒂回归模型及最大熵模型学习可以转化为为无约束最优化问题。求解该最优化问题的算法有改进的迭代尺度法,梯度下降法,拟牛顿法。
二项逻辑斯蒂回归模型是一种分类模型,由条件分布P(X|Y)表示,形式为参数化的逻辑斯蒂回归。这里,随机变量X取值为实数,随机变量Y取值为0或1,通过监督学习的方法来估计模型参数。
线性函数的值越接近正无穷,概率值越接近1,函数的值越接近负无穷,概率值越接近0,这样的模型就是逻辑斯蒂回归模型。
最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型分布中,熵最大的模型是最好的模型,通常用约束条件确定概率模型的集合。所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。(拉格朗日乘数法,写出约束条件,然后分别求导,令其为0)
最大熵模型更一般的形式:
改进的迭代尺度法
改进的迭代尺度法(IIS)是一种最大熵模型学习的最优化算法。
拟牛顿法的BFGS算法: