以前写过一个 如何理解自然梯度 的回答,当时主要是从约束优化和拉格朗日乘子来得到自然梯度的过程。除此之外自然梯度还有多种理解方式,这里总结一下。
Fisher 矩阵与 KL-散度
自然梯度的概念和Fisher矩阵与KL-散度是密切相连的。Fisher 矩阵定义为
性质1. Score 函数的期望为零
性质2. Fisher矩阵的两种表示形式
性质3. KL-散度的局部二阶近似为
最基本的结论是:对于两个概率分布,KL-散度衡量了两个概率分布之间的差异,Fisher信息矩阵(FIM)是KL-散度的二阶近似,实际定义了概率分布空间上局部曲率。
统计流形上的最速下降
对于欧式空间上的目标函数,最常用的方法是梯度下降。
此式含义是,梯度方向是下降速度最快的方向,即最陡峭的方向。在空间中任何一个方向,在局部范围内下降的速度都不如负梯度方向快。需要注意的是,下降速度本身是一个比值(的极限),下降速度最快不代表沿此方向下降幅度最大。
不同空间上,最速下降方向的推导是依赖于
将此式写成拉格朗日乘子法的形式
对右边取梯度并令梯度为零,可得
自然梯度与二阶优化的关系
1.Fisher矩阵是对数似然函数的Hessian矩阵的期望
Fisher Information Matrix is equal to the negative expected Hessian of log likelihood.
具体的推导可以参考这里。
2. 自然梯度与Gauss-Newton法
对于MSE的loss函数
其中
梯度方向的不确定性
对于绝大部分概率分布,Fisher矩阵都无法解析计算,只能进行数值估计。给定一组数据
此式称为经验Fisher矩阵。在mini-batch的情形,此式可以对mini-batch做移动平均来逐步近似Fisher。记