nlp复习--seq2seq & attention

最新推荐文章于 2024-07-03 16:50:12 发布

xiaohuixiao！

最新推荐文章于 2024-07-03 16:50:12 发布

阅读量516

点赞数

分类专栏： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42182596/article/details/106969583

版权

本文介绍了seq2seq模型的原理，强调了其在信息压缩过程中可能存在的问题。然后详细探讨了seq2seq结合Attention机制的改进，解释了如何通过Attention权重动态地关注输入序列的不同部分。此外，还提到了self-attention的概念，它是源序列内部元素间交互的注意力机制。

摘要由CSDN通过智能技术生成

seq2seq

seq2seq又叫Encoder-Decoder模型。它可以实现从一个序列到任意一个序列的转换，模型如下所示，其左半部分为Encoder部分，右半部分为Decoder部分。
在这里插入图片描述
在翻译的应用中，可以理解为看完一个句子，提炼出它的大意
Seq2Seq模型中的向量 c就代表着context vector，即含有所有输入句信息的向量。

缺点

基础的Seq2Seq有一些缺点，因为Encoder将输入编码为固定大小状态向量的过程实际上是一“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大，基础的模型连接Encoder和Decoder模块的组件仅仅是一个固定大小的状态向量，这使得Decoder无法直接去关注到输入信息的更多细节。相当于是在输入一句话之后，看完一遍，立刻要求进行翻译；对于人而言，长句子的效果也不会很好。

改进

seq2seq +attention
则类似于翻译人员从头到尾阅读德语文本，同时写下关键字，然后他开始翻译成英语。在翻译每个德语单词时，他使用了自己写下的关键字。

总结：翻译每一个单词时，阅读的文本内容里面不是每个单词都是一样重要，而是应该有不同权重，这就体现了attention机制的重要。

seq2seq +attention模型：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。