深度学习-神经网络：AWD-LSTM

u013250861

已于 2023-10-27 23:33:37 修改

阅读量1k

点赞数

分类专栏： NLP/自然语言处理文章标签：人工智能自然语言处理 NLP 模型优化

于 2021-03-20 20:30:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/115034195

版权

NLP/自然语言处理专栏收录该内容

32 篇文章

订阅专栏

语言模型可以说是NLP中最基本的任务，无论是词向量，预训练模型，文本生成等任务中都带有语言模型的影子。

语言模型本质上是对一个自然世界中存在的句子建模，描述一个句子发生的概率，因此语言模型也是一个自回归的任务。

语言模型是一个上下文强依赖的任务，不仅需要捕获长距离的信息，还需要学到词之间的位置关系，从目前的技术来看，RNN系的模型在语言模型任务上的表现要优于transformer，主要原因还是因为Transformer在学习词位置关系时的能力弱于RNN，毕竟RNN是严格的从前到后循环依赖的。

一、AWD-LSTM简介

RNN在语言模型任务中的表现是非常优秀的，而且RNN的结构和语言模型的任务特性也很好的切合。

但RNN的循环连接容易过拟合。

本片论文就是围绕这一点展开的研究，提出了很多中解决RNN过拟合的技术，这一类技术不仅可以用在语言模型中，也可以用在其他RNN建模的任务中。

LSTM作为RNN系列中最优秀的代表变体，论文就是在不改变LSTM的原有结构上，引入各种正则化技术，提升模型的泛化能力，改善语言模型的性能。

二、正则化方法优化LSTM

1、weighte-dropped LSTM

2、Variable length backpropagation sequences

3、Variational dropout

4、Embedding dropout

5、Weight tying

6、Independent embedding size and hidden size

7、Activation Regularization (AR) and Temporal Activation Regularization (TAR)

三、NT-ASGD

研究发现，对于特定的语言建模任务，SGD的效果要优于带动量的，或者自适应学习速率的优化算法，如动量法，Adagrad，RMSProp，Adam等优化算法。作者在这里没有直接使用SGD，而是调研了ASGD（averaged SGD），发现ASGD的有着更好的效果。ASGD中有这么一项，即对过去的权重求均值，ASGD中用过去的参数的均值替换上一步的参数：

参考资料：
语言模型系列（一）——AWD-LSTM
AWD-LSTM为什么这么棒？
语言建模的王者：AWD-LSTM指南

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。