机器学习中的泰勒展开（基于OBD分析）

风马行空

已于 2024-09-07 11:37:07 修改

阅读量257

点赞数 3

文章标签：机器学习人工智能

于 2024-09-07 11:27:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42885359/article/details/141993010

版权

在网络剪枝的论文中有时会提及泰勒展开这个操作，那为什么要展开呢？

在网络剪枝方法中，有一个环节是重要度评估。

当前大致分为：①基于幅值；②基于范数；③基于敏感度；④基于损失变化。

泰勒展开是基于敏感度评估的一个环节。

最早的基于敏感度的方法是图灵奖得主Yann Le Cun于1989年提出的《Optimal Brain Damage》方法（简称OBD）

该文章提出了一个假设：有可能从一个合理的网络中删除一半（或更多）的权重，最终得到的网络性能相同或更好。

文章还讨论了网络复杂度与泛化性能之间的关系，指出过多的权重可能导致泛化性能不佳，而过少的权重则可能无法准确表示数据。

OBD中的一个核心步骤就是利用“删除一个参数之后，目标函数的变化”来定义一个参数的贡献度。

我们要如何观察目标函数的变化呢？

最简单最直接的方式就是：对某一个参数添加一个小扰动，计算目标函数扰动前后发生的变化，对网络中的所有参数都要这么计算一遍，才能得到所有参数的贡献度。

如此看来，直接计算每一个参数删除引发的目标函数的变化是很困难的。

OBD提出：通过建立一个误差函数的局部模型，来分析预测扰动参数向量引起的影响。

首先：使用泰勒级数来近似目标函数 $E$ ，用一个扰动向量 $\delta U$ 来改变目标函数，变为 $\delta E$ ，此时的 $\delta E$ 也称为显著性或敏感度 $S_i$ 。

$\delta E=\sum_{i} g_{i} \delta u_{i}+\frac{1}{2} \sum_{i} h_{i i} \delta u_{i}^{2}+\frac{1}{2} \sum_{i\neq j} h_{i j} \delta u_{i} \delta u_{j}+O\left(\|\delta U\|^{3}\right)$

其中， $\delta u_{i}$ 为 $\delta U$ 的分量， $g_{i}$ 为 $E$ 关于 $U$ 的梯度 $G$ 的分量， $g_i = \frac{\delta E}{\delta u_i}$ 。 $h_{ij}$ 为Hessian的元素， $h_{i j}=\frac{\partial^{2} E}{\partial u_{i} \partial u_{j}}$

现在的目标是，是找到一个参数集合，使得删除掉这个参数集合之后 $E$ 的变化最小。

上面那个公式有个问题，Hessian矩阵的计算量太大了，对于那个年代来说确实很大。

因此，OBD提出了三种近似方法来简化计算 $\delta E$ 。

① 对角近似：文章假设非对角元素（即参数之间的相互作用）对总体显著性的影响较小，因此忽略了Hessian矩阵的非对角元素，只考虑对角线元素。这意味着每个权重的影响被假设为相互独立的。

② 极值近似：文章假设权重删除操作发生在训练收敛后，此时权重向量处于损失函数的局部最小点。在局部最小点，损失函数的一阶导数（梯度）为零，因此可以忽略泰勒展开中的一阶项。

③ 二次近似：文章进一步假设损失函数在权重的当前值附近近似为二次的，从而可以忽略泰勒展开中的高阶项。

此时 $\delta E$ 的计算则简化为：

$S_i = \delta E=\frac{1}{2} \sum_{i} h_{i i} \delta u_{i}^{2}$

此时就剩 $h_{ii}$ 的计算了。

根据文章提出的Levenberg-Marquardt（列文伯格-马夸尔特）算法近似计算Hessian矩阵的对角线元素 $h_{ii}$ 。

回到最初的问题，为什么要泰勒展开？

泰勒展开的目的是：利用一系列多项式来近似某个函数。

那为什么要近似某个函数呢？

因为这个函数在原始状态下过于复杂，难以完整地、精确地表示出来。既然表示出来都困难了，更别说计算出来了。

此时，泰勒级数是个很好的数学工具，泰勒级数展开允许我们使用局部信息（即当前参数值附近的导数信息）来近似整个函数。

例如：许多机器学习模型的目标函数是非线性的。泰勒级数的一阶展开（即线性近似）可以将非线性问题在局部线性化，就可以实现我们耳熟能详的基于梯度的反向传播算法。

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的泰勒展开（基于OBD分析）

机器学习中的泰勒展开有什么作用？本文从网络剪枝方法的角度讲述了为什么要泰勒展开？
复制链接

扫一扫

风马行空 CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

12万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

325: 积分

41: 粉丝

45: 获赞

16: 评论

228: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于机器学习中的二阶信息的理解（来龙去脉版）
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
树莓派4b(armv8) 64位系统编译安装onnx
salander_: 哥，能不能分享一下编译成功的那个文件，我的老是报错，说ImportError: No module named ‘google‘，调好了之后第二次又不行了
树莓派4b(armv8) 64位系统编译安装onnx
m0_73983689: 1.9.1的onnxruntime找不到
树莓派4b(armv8) 64位系统编译安装onnx
CSDN-Ada助手: 恭喜您发布了第10篇博客！看到您在树莓派4b(armv8) 64位系统编译安装onnx的经验分享，让我深受启发。希望您能在以后的创作中继续分享更多关于树莓派和64位系统的经验，或者可以考虑分享一些实际应用案例，让更多的读者受益。期待您更多的精彩内容！
虚拟机网络模式（NAT模式）
百川入我怀: 你好，第三步的命令是怎么输的？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。