kl散度的理解_多角度理解自然梯度

最新推荐文章于 2024-06-16 10:45:52 发布

weixin_39773215

最新推荐文章于 2024-06-16 10:45:52 发布

阅读量901

点赞数

文章标签： kl散度的理解

以前写过一个如何理解自然梯度的回答，当时主要是从约束优化和拉格朗日乘子来得到自然梯度的过程。除此之外自然梯度还有多种理解方式，这里总结一下。

Fisher 矩阵与 KL-散度

自然梯度的概念和Fisher矩阵与KL-散度是密切相连的。Fisher 矩阵定义为

性质1. Score 函数的期望为零

性质2. Fisher矩阵的两种表示形式

性质3. KL-散度的局部二阶近似为

最基本的结论是：对于两个概率分布，KL-散度衡量了两个概率分布之间的差异，Fisher信息矩阵（FIM）是KL-散度的二阶近似，实际定义了概率分布空间上局部曲率。

统计流形上的最速下降

对于欧式空间上的目标函数，最常用的方法是梯度下降。

此式含义是，梯度方向是下降速度最快的方向，即最陡峭的方向。在空间中任何一个方向，在局部范围内下降的速度都不如负梯度方向快。需要注意的是，下降速度本身是一个比值（的极限），下降速度最快不代表沿此方向下降幅度最大。

不同空间上，最速下降方向的推导是依赖于

所的范数——距离度量。距离度量在这里起着核心作用，不同的度量会得到不同的最速下降方向。对于欧式范数，最速下降方向就是负梯度方向。在概率分布空间，每个参数

表示一个参数化的概率分布，分布之间的距离用KL-散度表示，于是上面的右面的优化问题表示为

将此式写成拉格朗日乘子法的形式

对右边取梯度并令梯度为零，可得

，即最速下降方向由

方向确定（相差一个常数因子，可以和学习率合并）。此方向称为

自然梯度。由于Fisher矩阵表示统计流形（概率分布空间）上的局部曲率，因此这个方向实际考虑了分布参数空间上的曲率信息。由于KL散度是内蕴的，自然梯度也是内蕴的，即在参数变换下自然梯度保持不变。

自然梯度与二阶优化的关系

1.Fisher矩阵是对数似然函数的Hessian矩阵的期望

Fisher Information Matrix is equal to the negative expected Hessian of log likelihood.

具体的推导可以参考这里。

2. 自然梯度与Gauss-Newton法

对于MSE的loss函数

，Gauss-Newton法是牛顿法的近似。通过链式法则，上式的Hessian矩阵可以写成

其中

是残量。上式的第一项就是Gauss-Newton矩阵。对于较小的残量来说，L的Hessian矩阵就可以用右边第一项来近似。因此，尽管他们的出发点是完全不同的，Gauss-Newton矩阵与Fisher矩阵相同，自然梯度下降与Gauss-Newton法一致。

梯度方向的不确定性

对于绝大部分概率分布，Fisher矩阵都无法解析计算，只能进行数值估计。给定一组数据

，Fisher矩阵可以估计如下

此式称为经验Fisher矩阵。在mini-batch的情形，此式可以对mini-batch做移动平均来逐步近似Fisher。记

，上式可以看成是

的协方差矩阵，即

，描述了梯度的不确定性，自然梯度方向是目标函数值下降的概率最大的方向，参考Topmoumoute online natural gradient algorithm。

weixin_39773215

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。