nlp复习--seq2seq & attention

本文介绍了seq2seq模型的原理,强调了其在信息压缩过程中可能存在的问题。然后详细探讨了seq2seq结合Attention机制的改进,解释了如何通过Attention权重动态地关注输入序列的不同部分。此外,还提到了self-attention的概念,它是源序列内部元素间交互的注意力机制。
摘要由CSDN通过智能技术生成
seq2seq

seq2seq又叫Encoder-Decoder模型。它可以实现从一个序列到任意一个序列的转换,模型如下所示,其左半部分为Encoder部分,右半部分为Decoder部分。
在这里插入图片描述
在翻译的应用中,可以理解为看完一个句子,提炼出它的大意
Seq2Seq模型中的向量 c就代表着context vector,即含有所有输入句信息的向量。

缺点

基础的Seq2Seq有一些缺点,因为Encoder将输入编码为固定大小状态向量的过程实际上是一“信息有损压缩”的过程,如果信息量越大,那么这个转化向量的过程对信息的损失就越大,基础的模型连接Encoder和Decoder模块的组件仅仅是一个固定大小的状态向量,这使得Decoder无法直接去关注到输入信息的更多细节。相当于是在输入一句话之后,看完一遍,立刻要求进行翻译;对于人而言,长句子的效果也不会很好。

改进

seq2seq +attention
则类似于翻译人员从头到尾阅读德语文本,同时写下关键字,然后他开始翻译成英语。 在翻译每个德语单词时,他使用了自己写下的关键字。

总结:翻译每一个单词时,阅读的文本内容里面不是每个单词都是一样重要,而是应该有不同权重,这就体现了attention机制的重要。

seq2seq +attention模型:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值