循环神经网络

最新推荐文章于 2024-05-30 08:00:00 发布

头号大眼睛

最新推荐文章于 2024-05-30 08:00:00 发布

阅读量332

点赞数

分类专栏：机器学习文章标签：循环神经网络遇到梯度爆炸问题的解决方案裁剪梯度

本文链接：https://blog.csdn.net/ZzH7HN/article/details/104283426

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

理解：循环神经网络可以看成是一个过程，通过现在的发生的事情来预测未来发生的事，t时刻的输出由t-1时刻的隐藏层输出Ht-1和t时刻的输入Xt共同决定。(Xt,Ht-1) -----> Yt

递归网络问题

常规递归网络从理论上应该可以顾及所有过去时刻的依赖，然而实际却无法按人们所想象工作。原因在于梯度消失（vanishinggradient）和梯度爆炸（exploding gradient）问题。

解决办法：裁剪梯度

裁剪梯度

循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量 g，并设裁剪的阈值是θ。裁剪后的梯度的L2范数不超过θ。

$\min\left(\frac{\theta}{\|\boldsymbol{g}\|}, 1\right)\boldsymbol{g}$

def grad_clipping(params, theta, device):
    norm = torch.tensor([0.0], device=device)
    for param in params:
        norm += (param.grad.data ** 2).sum()
    norm = norm.sqrt().item()
    if norm > theta:
        for param in params:
            param.grad.data *= (theta / norm)

头号大眼睛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络

理解：循环神经网络可以看成是一个过程，通过现在的发生的事情来预测未来发生的事，t时刻的输出由t-1时刻的隐藏层输出Ht-1和t时刻的输入Xt共同决定。(Xt,Ht-1) -----> Yt递归网络问题常规递归网络从理论上应该可以顾及所有过去时刻的依赖，然而实际却无法按人们所想象工作。原因在于梯度消失（vanishinggradient）和梯度爆炸（exploding gra...
复制链接

扫一扫