【机器学习基础】Hessian矩阵

最新推荐文章于 2024-07-24 07:45:00 发布

天堂的鸽子

最新推荐文章于 2024-07-24 07:45:00 发布

阅读量5.1k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TIANTANGDEGEZI/article/details/102579819

版权

本文是《模式识别与机器学习》的读书笔记，主要探讨Hessian矩阵在神经网络中的作用，包括误差曲面的二阶性质、快速训练、网络剪枝和贝叶斯神经网络的拉普拉斯近似。还介绍了矩阵的近似方法，如对角近似和外积近似，并讲解了如何高效计算矩阵的逆和有限差。此外，讨论了矩阵的精确计算和快速乘法算法，展示了在不同规模网络中Hessian矩阵的应用效果。

摘要由CSDN通过智能技术生成

本系列为《模式识别与机器学习》的读书笔记。

一，`Hessian` 矩阵

反向传播也可以⽤来计算误差函数的⼆阶导数，形式为
$\frac{\partial^{2}{E}}{\partial{w_{ji}}\partial{w_{kl}}}$

注意，有时将所有的权值和偏置参数看成⼀个向量（记作 $\boldsymbol{w}$ ）的元素 $w_i$ 更⽅便，此时⼆阶导数组成了Hessian矩阵 $\boldsymbol{H}$ 的元素 $H_{ij}$ ，其中 $\in \{1,\dots, W\}$ ，且 $W$ 是权值和偏置的总数。Hessian矩阵在神经⽹络计算的重要的作⽤，包括：

1）⼀些⽤来训练神经⽹络的⾮线性最优化算法是基于误差曲⾯的⼆阶性质的，这些性质由Hessian矩阵控制（Bishop and Nabney, 2008）；
2）对于训练数据的微⼩改变，Hessian矩阵构成了快速重新训练前馈⽹络的算法的基础（Bishop, 1991）；
3）Hessian矩阵的逆矩阵⽤来鉴别神经⽹络中最不重要的权值，这是⽹络“剪枝”算法的⼀部分（LeCun et al., 1990）；
4）Hessian矩阵是贝叶斯神经⽹络的拉普拉斯近似的核⼼。它的逆矩阵⽤来确定训练过的神经⽹络的预测分布，它的特征值确定了超参数的值，它的⾏列式⽤来计算模型证据。

二，对角近似

对于模式 $n$ ，Hessian矩阵的对角线元素可以写成

$\frac{\partial^{2}{E_n}}{\partial{w_{ji}^{2}}}=\frac{\partial^{2}{E_n}}{\partial{a_{j}^{2}}}z_{i}^{2}\tag{5.56}$

从而，反向传播⽅程的形式为
$\frac{\partial^{2}{E_n}}{\partial{a_{j}^{2}}}=h^{\prime}(a_j)^2\sum_{k}\sum_{k^{\prime}}w_{kj}w_{k^{\prime}j}\frac{\partial^{2}{E_n}}{\partial{a_k}\partial{a_{k^{\prime}}}}+h^{\prime\prime}(a_j)\sum_{k}w_{kj}\frac{\partial{E_n}}{\partial{a_k}}\tag{5.57}$
如果忽略⼆阶导数中⾮对角线元素，那么有（Becker and LeCun, 1989; LeCun et al., 1990）
$\frac{\partial^{2}{E_n}}{\partial{a_{j}^{2}}}=h^{\prime}(a_j)^2\sum_{k}w_{kj}^{2}\frac{\partial^{2}{E_n}}{\partial{a_k^{2}}}+h^{\prime\prime}(a_j)\sum_{k}w_{kj}\frac{\partial{E_n}}{\partial{a_k}}\tag{5.58}$

三，外积近似

当神经⽹络应⽤于回归问题时，通常使⽤下⾯形式的平⽅和误差函数
$E=\frac{1}{2}\sum_{n=1}^{N}(y_n-t_n)^2\tag{5.59}$
考虑单⼀输出的情形（推⼴到多个输出是很直接的），可以把Hessian矩阵写成下⾯的形式
$\boldsymbol{H}=\nabla\nabla{E}=\sum_{n=1}^{N}\nabla{y_n}(\nabla{y_n})^{T}+\sum_{n=1}^{N}(y_n-t_n)\nabla\nabla{y_n}\tag{5.60}$

最低0.47元/天解锁文章

天堂的鸽子

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
【机器学习基础】Hessian矩阵

本系列为《模式识别与机器学习》的读书笔记。一，Hessian 矩阵反向传播也可以⽤来计算误差函数的⼆阶导数，形式为∂2E∂wji∂wkl\frac{\partial^{2}{E}}{\partial{w_{ji}}\partial{w_{kl}}}∂wji∂wkl∂2E注意，有时将所有的权值和偏置参数看成⼀个向量（记作 w\boldsymbol{w}w ）的元素 wiw_iw...
复制链接

扫一扫