Truncated Gradient --截断梯度

最新推荐文章于 2024-02-18 09:33:03 发布

大号小白兔

最新推荐文章于 2024-02-18 09:33:03 发布

阅读量3.9k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/a1b2c3d4123456/article/details/90718413

版权

本文介绍了在大规模机器学习中，由于高维度导致模型过大，如何通过梯度截断技术进行模型剪枝。简单截断法通过设定阈值直接将小权重设为0，但存在选择阈值的困难。L1正则化法虽能避免非凸优化，但产生稀疏解的情况较少。截断梯度法更复杂，根据梯度更新值与阈值比较进行不同处理，实现更灵活的稀疏度控制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Truncated Gradient --截断梯度

简介

最近接触了大规模机器学习，在进行模型训练的时候采用的是广义线性模型，由于超高维度（十亿级别）导致训练的模型最后超级大，为了上线模型服务，最后的模型不能太大，需要进行模型的剪枝，于是就涉及到了梯度截断，用以减少模型的最终的权重的数量。同时梯度截断也可以减少不重要特征，凸显重要的特征在模型的影响，此外稀疏化的模型在参数更新过程中更具优势。

简单截断法

简单粗暴的方法，设置一个固定的阈值，当某个w小于阈值的时候，直接赋值为0。
这里有一个窗口的概念，参数k为窗口，表示采用截断的最小步长，也就是说截断不是每次都会触发。训练过程中每个batch用参数i表示，（每个可能包含多个样本，也可能包含一个，在线学习时候batchsize一般为1，但是受限于性能，实际应用中batchsize一般大于1）。
当i/k不是整数时候，不触发截断，梯度更新方式和如下：

$\eta ^ { ( t ) } G ^ { ( t ) }$

其中， $G ^ { ( t ) }$ 为第t次更新中损失函数的梯度， $\eta ^ { ( t ) }$ 为学习率。
当i/k为整数时候，梯度更新方式和如下：
$\left( W ^ { ( t ) } - \eta ^ { ( t ) } G ^ { ( t ) } , \theta \right)$

最低0.47元/天解锁文章