机器学习 笔记06:最大熵模型

目录

1、最大熵原理

1.1 离散情形

1.2 连续情形

2、最大熵模型

3、拉格朗日乘子法

4、最大熵模型学习

 5、极大似然估计

6、模型学习的最优化算法

1. 梯度下降法——经典

1.1 求极小值原理

 1.2 梯度下降法求最大熵模型——求条件概率分布

2. 牛顿法、拟牛顿法

2.1 牛顿法求零点

2.2 牛顿法求极小值

 2.3 拟牛顿法——DFP算法和BFGS算法

2.4 拟牛顿法应用于最大熵模型

3. 改进的迭代尺度法


1、最大熵原理

1.1 离散情形

1.2 连续情形

2、最大熵模型

        最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,通常使用模型的约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。 

这里,n个约束条件; 真实分布经验分布为:

 未知的只有条件分布 p(y|x),得到了待选模型集合 \mathcal{C}

3、拉格朗日乘子法

 

4、最大熵模型学习

        最大熵模型就是由公式(6.22)、公式(6.23)表示的条件概率分布。

 5、极大似然估计

        想要估计逻辑回归中的条件概率分布,可以通过极大似然方法实现。那么在最大熵模型里,同样可以使用极大似然方法去估计条件概率分布,然后使用这个条件概率分布(模型)去解决分类问题。

        怎么找似然函数?首先我们假定我们已经知道了条件概率分布,然后找到用于训练模型的样本集,根据这个样本集写出所有样本所出现的概率表达式。换一个视角,在已知这些样本情况下,我们将这个表达式记作条件概率分布的似然函数。现在的研究对象变成了条件概率分布。取什么样的分布可以使得这个似然函数最大呢?

6、模型学习的最优化算法

来自B站博主“简博士”讲解——《统计学习方法》最大熵模型的优化算法。 

1. 梯度下降法——经典

1.1 求极小值原理

 1.2 梯度下降法求最大熵模型——求条件概率分布

 

2. 牛顿法、拟牛顿法

2.1 牛顿法求零点

2.2 牛顿法求极小值

2.2.1 一元情形

2.2.2 多元情形

 2.3 拟牛顿法——DFP算法和BFGS算法

2.3.1 DFP算法

 2.3.2 BFGS算法

2.3.3 Broyden算法

2.4 拟牛顿法应用于最大熵模型

3. 改进的迭代尺度法

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值