机器学习笔记06：最大熵模型

S1406793

已于 2022-11-09 19:20:03 修改

阅读量849

点赞数

分类专栏：机器学习文章标签：人工智能 python

于 2022-11-09 18:26:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/S1406793/article/details/127731048

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

目录

1、最大熵原理

1.1 离散情形

1.2 连续情形

2、最大熵模型

3、拉格朗日乘子法

4、最大熵模型学习

5、极大似然估计

6、模型学习的最优化算法

1. 梯度下降法——经典

1.1 求极小值原理

1.2 梯度下降法求最大熵模型——求条件概率分布

2. 牛顿法、拟牛顿法

2.1 牛顿法求零点

2.2 牛顿法求极小值

2.3 拟牛顿法——DFP算法和BFGS算法

2.4 拟牛顿法应用于最大熵模型

3. 改进的迭代尺度法

1、最大熵原理

1.1 离散情形

1.2 连续情形

2、最大熵模型

最大熵原理是概率模型学习的一个准则，最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型就是最好的模型，通常使用模型的约束条件来确定概率模型的集合，所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。

这里，n个约束条件； 真实分布和经验分布为：

未知的只有条件分布 p(y|x)，得到了待选模型集合 $\mathcal{C}$

3、拉格朗日乘子法

4、最大熵模型学习

最大熵模型就是由公式(6.22)、公式(6.23)表示的条件概率分布。

5、极大似然估计

想要估计逻辑回归中的条件概率分布，可以通过极大似然方法实现。那么在最大熵模型里，同样可以使用极大似然方法去估计条件概率分布，然后使用这个条件概率分布（模型）去解决分类问题。

怎么找似然函数？首先我们假定我们已经知道了条件概率分布，然后找到用于训练模型的样本集，根据这个样本集写出所有样本所出现的概率表达式。换一个视角，在已知这些样本情况下，我们将这个表达式记作条件概率分布的似然函数。现在的研究对象变成了条件概率分布。取什么样的分布可以使得这个似然函数最大呢？

6、模型学习的最优化算法

来自B站博主“简博士”讲解——《统计学习方法》最大熵模型的优化算法。

1. 梯度下降法——经典

1.1 求极小值原理

1.2 梯度下降法求最大熵模型——求条件概率分布

2. 牛顿法、拟牛顿法

2.1 牛顿法求零点

2.2 牛顿法求极小值

2.2.1 一元情形

2.2.2 多元情形

2.3 拟牛顿法——DFP算法和BFGS算法

2.3.1 DFP算法

2.3.2 BFGS算法

2.3.3 Broyden算法

2.4 拟牛顿法应用于最大熵模型

3. 改进的迭代尺度法

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记06：最大熵模型

最大熵原理是概率模型学习的一个准则，最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型就是最好的模型，通常使用模型的约束条件来确定概率模型的集合，所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。这里，n个约束条件；真实分布和经验分布为：未知的只有条件分布 p(y|x)，得到了待选模型集合最大熵模型就是由公式(6.22)、公式(6.23)表示的条件概率分布。想要估计逻辑回归中的条件概率分布，可以通过极大似然方法实现。那么
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。