kl散度的理解_多角度理解自然梯度

以前写过一个 如何理解自然梯度 的回答,当时主要是从约束优化和拉格朗日乘子来得到自然梯度的过程。除此之外自然梯度还有多种理解方式,这里总结一下。

Fisher 矩阵与 KL-散度

自然梯度的概念和Fisher矩阵与KL-散度是密切相连的。Fisher 矩阵定义为

性质1. Score 函数的期望为零

性质2. Fisher矩阵的两种表示形式

性质3. KL-散度的局部二阶近似为

最基本的结论是:对于两个概率分布,KL-散度衡量了两个概率分布之间的差异,Fisher信息矩阵(FIM)是KL-散度的二阶近似,实际定义了概率分布空间上局部曲率。

统计流形上的最速下降

对于欧式空间上的目标函数,最常用的方法是梯度下降。

此式含义是,梯度方向是下降速度最快的方向,即最陡峭的方向。在空间中任何一个方向,在局部范围内下降的速度都不如负梯度方向快。需要注意的是,下降速度本身是一个比值(的极限),下降速度最快不代表沿此方向下降幅度最大。

不同空间上,最速下降方向的推导是依赖于

所的范数——距离度量。距离度量在这里起着核心作用,不同的度量会得到不同的最速下降方向。对于欧式范数,最速下降方向就是负梯度方向。在概率分布空间,每个参数
表示一个参数化的概率分布,分布之间的距离用KL-散度表示,于是上面的右面的优化问题表示为

将此式写成拉格朗日乘子法的形式

对右边取梯度并令梯度为零,可得

,即最速下降方向由
方向确定(相差一个常数因子,可以和学习率合并)。此方向称为
自然梯度。由于Fisher矩阵表示统计流形(概率分布空间)上的局部曲率,因此这个方向实际考虑了分布参数空间上的曲率信息。由于KL散度是内蕴的,自然梯度也是内蕴的,即在参数变换下自然梯度保持不变。

自然梯度与二阶优化的关系

1.Fisher矩阵是对数似然函数的Hessian矩阵的期望

Fisher Information Matrix is equal to the negative expected Hessian of log likelihood.

具体的推导可以参考这里。

2. 自然梯度与Gauss-Newton法

对于MSE的loss函数

,Gauss-Newton法是牛顿法的近似。通过链式法则,上式的Hessian矩阵可以写成

其中

是残量。上式的第一项就是Gauss-Newton矩阵。对于较小的残量来说,L的Hessian矩阵就可以用右边第一项来近似。因此,尽管他们的出发点是完全不同的,Gauss-Newton矩阵与Fisher矩阵相同,自然梯度下降与Gauss-Newton法一致。

梯度方向的不确定性

对于绝大部分概率分布,Fisher矩阵都无法解析计算,只能进行数值估计。给定一组数据

,Fisher矩阵可以估计如下

此式称为经验Fisher矩阵。在mini-batch的情形,此式可以对mini-batch做移动平均来逐步近似Fisher。记

,上式可以看成是
的协方差矩阵,即
,描述了梯度的不确定性,自然梯度方向是目标函数值下降的概率最大的方向,参考Topmoumoute online natural gradient algorithm。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值