transformer

guohahaya

于 2020-12-15 20:20:38 发布

阅读量101

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37008037/article/details/105879486

版权

Transformer是一种用于序列到序列任务的神经网络架构，解决了RNN的并行计算难题和CNN在处理变长序列上的限制。它主要由encoder和decoder组成，其中encoder通过多头自注意力机制捕捉上下文信息，decoder则在编码器的基础上进行解码。每个子层应用了残差连接，允许信息直接通过网络流动。Transformer在处理大规模数据时表现优越，并且在NLP领域有着广泛应用。

摘要由CSDN通过智能技术生成

https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w 这篇讲的很好

https://zhuanlan.zhihu.com/p/53682800 主要参考这两篇

https://blog.csdn.net/Miracle_520/article/details/105346882 这篇也不错

https://www.chinahadoop.cn/course/open/lesson/27464/play

神经网络需要能够将源语句的所有必要信息压缩成固定长度的向量。这可能使得神经网络难以应付长时间的句子，特别是那些比训练语料库中的句子更长的句子；每个时间步的输出需要依赖于前面时间步的输出，这使得模型没有办法并行，效率低；仍然面临对齐问题。

再然后CNN由计算机视觉也被引入到deep NLP中，CNN不能直接用于处理变长的序列样本但可以实现并行计算。完全基于CNN的Seq2Seq模型虽然可以并行实现，但非常占内存，很多的trick，大数据量上参数调整并不容易。

</

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。