目录
1、最大熵原理
1.1 离散情形
1.2 连续情形
2、最大熵模型
最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,通常使用模型的约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。
这里,n个约束条件; 真实分布和经验分布为:
未知的只有条件分布 p(y|x),得到了待选模型集合
3、拉格朗日乘子法
4、最大熵模型学习
最大熵模型就是由公式(6.22)、公式(6.23)表示的条件概率分布。
5、极大似然估计
想要估计逻辑回归中的条件概率分布,可以通过极大似然方法实现。那么在最大熵模型里,同样可以使用极大似然方法去估计条件概率分布,然后使用这个条件概率分布(模型)去解决分类问题。
怎么找似然函数?首先我们假定我们已经知道了条件概率分布,然后找到用于训练模型的样本集,根据这个样本集写出所有样本所出现的概率表达式。换一个视角,在已知这些样本情况下,我们将这个表达式记作条件概率分布的似然函数。现在的研究对象变成了条件概率分布。取什么样的分布可以使得这个似然函数最大呢?
6、模型学习的最优化算法
来自B站博主“简博士”讲解——《统计学习方法》最大熵模型的优化算法。
1. 梯度下降法——经典
1.1 求极小值原理
1.2 梯度下降法求最大熵模型——求条件概率分布
2. 牛顿法、拟牛顿法
2.1 牛顿法求零点
2.2 牛顿法求极小值
2.2.1 一元情形
2.2.2 多元情形
2.3 拟牛顿法——DFP算法和BFGS算法
2.3.1 DFP算法
2.3.2 BFGS算法
2.3.3 Broyden算法