NLP特征处理器 Transformer和他的历史

最新推荐文章于 2024-08-16 13:01:54 发布

bajia3228

最新推荐文章于 2024-08-16 13:01:54 发布

阅读量253

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/pocahontas/p/11334364.html

版权

RNN CNN 人老珠黄。全面拥抱Transformer。

对于自然语言处理领域来说，2018 年无疑是个收获颇丰的年头，

就是Bert 模型了。

一个是 Bert 这种两阶段的模式（预训练 + Finetuning）

必将成为 NLP 领域研究和工业应用的流行方法；

第二个是从 NLP 领域的特征抽取器角度来说，

Transformer 会逐步取代 RNN 成为最主流的的特征抽取器。

RNN 自从引入 NLP 界后，在 NLP 各种任务中被广泛使用。但是原始的 RNN 也存在问题。

它采取线性序列结构不断从前往后收集输入信息，但这种结构在反向传播的时候存在优化困难问题，

因为反向传播路径太长，容易导致严重的梯度消失或梯度爆炸问题。

为了解决这个问题，后来引入了 LSTM 和 GRU 模型，

通过增加中间状态信息直接向后传播，以此缓解梯度消失问题，

经过不断优化，

后来 NLP 又从图像领域借鉴并引入了 attention 机制
以及引入 Encoder-Decoder 框架，

这些技术进展极大拓展了 RNN 的能力以及应用效果。

RNN 在 NLP 界一直红了很多年（2014-2018？），在 2018 年之前，大部分各个子领域的 State of Art 的结果都是 RNN 获得的。

另外一个严重阻碍 RNN 将来继续走红的问题是：

RNN 本身的序列依赖结构对于大规模并行计算来说相当之不友好。

通俗点说，就是 RNN 很难具备高效的并行计算能力

那问题来了：为什么 RNN 并行计算能力比较差？是什么原因造成的？

参考文献

新智元《Transformer一统江湖：自然语言处理三大特征抽取器比较》

转载于:https://www.cnblogs.com/pocahontas/p/11334364.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP特征处理器 Transformer和他的历史

RNN CNN人老珠黄。全面拥抱Transformer。对于自然语言处理领域来说，2018 年无疑是个收获颇丰的年头，就是Bert 模型了。一个是Bert 这种两阶段的模式（预训练 + Finetuning）必将成为 NLP 领域研究和工业应用的流行方法；第二个是从 NLP 领域的特征抽取器角度来说，Transformer 会逐步取代 RNN 成为最主流...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。