pytorch优化器Adam和Adamw中的weight_decay的区别

lbdjdl

已于 2022-03-18 20:03:38 修改

阅读量5.2k

点赞数 1

文章标签： pytorch 机器学习算法深度学习

于 2022-03-12 12:24:56 首次发布

本文链接：https://blog.csdn.net/lbdjdl/article/details/123441359

版权

本文详细介绍了PyTorch中的优化器Adam和AdamW，重点讨论了两者在weight_decay上的区别。Adam中的weight_decay实际上实现了L2正则化，而AdamW则是对参数直接进行约束，以防止过拟合。两者的更新方式不同，但都旨在控制权重大小。

摘要由CSDN通过智能技术生成

pytorch优化器Adam和Adamw

只介绍二者的weight_decay的区别

一般的梯度下降的方法是 $\theta_j=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J$

Adam

算法

给出pytorch.optim.Adam类中具体实现的算法，来自pytorch中class Adam(Optimizer)
$\begin{aligned} &\rule{110mm}{0.4pt} \\ &\textbf{input} : \gamma \text{ (lr)}, \beta_1, \beta_2 \text{ (betas)},\theta_0 \text{ (params)},f(\theta) \text{ (objective)} \\ &\hspace{13mm} \lambda \text{ (weight decay)}, \: amsgrad \\ &\textbf{initialize} : m_0 \leftarrow 0 \text{ ( first moment)}, v_0\leftarrow 0 \text{ (second moment)},\: \widehat{v_0}^{max}\leftarrow 0\\[-1.ex] &\rule{110mm}{0.4pt} \\ &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do} \\ &\hspace{5mm}g_t \leftarrow \nabla_{\theta} f_t (\theta_{t-1}) \\ &\hspace{5mm}\textbf{if} \: \lambda \neq 0 \\ &\hspace{10mm} g_t \leftarrow g_t + \lambda \theta_{t-1} \\ &\hspace{5mm}m_t \leftarrow \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ &\hspace{5mm}v_t \leftarrow \beta_2 v_{t-1} + (1-\beta_2) g^2_t \\ &\hspace{5mm}\widehat{m_t} \leftarrow m_t/\big(1-\beta_1^t \big) \\ &\hspace{5mm}\widehat{v_t} \leftarrow v_t/\big(1-\beta_2^t \big) \\ &\hspace{5mm}\textbf{if} \: amsgrad \\ &\hspace{10mm}\widehat{v_t}^{max} \leftarrow \mathrm{max}(\widehat{v_t}^{max}, \widehat{v_t}) \\ &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}^{max}} + \epsilon \big) \\ &\hspace{5mm}\textbf{else} \\ &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}} + \epsilon \big) \\ &\rule{110mm}{0.4pt} \\[-1.ex] &\bf{return} \: \theta_t \\[-1.ex] &\rule{110mm}{0.4pt} \\[-1.ex] \end{aligned}$