seq2seq相关资料加重点总结

RNN/LSTM

RNN TO LSTM:  https://www.cnblogs.com/jiangxinyang/p/9362922.html

1.U,W,V这三个矩阵就是我们的模型的线性关系参数,它在整个RNN网络中是共享的。也正是因为是共享的,它体现了RNN的模型的“循环反馈”的思想。

RNN Encoder-Decoder and GRU

链接地址:https://zhuanlan.zhihu.com/p/42722623

SEQ2SEQ

从seq2seq 到 attention 简介:https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/

attention 带公式的图解:https://zhuanlan.zhihu.com/p/40920384

1.在机器翻译中,源语言和目标语言的句子序列都是不等长的,而原始的 n VS n 结构都是要求序列等长的。为此,我们有了 n VS m 结构,这种结构又被称为 Encoder-Decoder模型 。

2.Decoder根据中间状态向量 C 和已经生成的历史信息 y1,y2…yi-1 去生成 t 时刻的单词 yi .

3.例如翻译:Cat chase mouseEncoder-Decoder 模型逐字生成:“猫”、“捉”、“老鼠”。在翻译 mouse 单词时,每一个英语单词对“老鼠”的贡献都是相同的。如果引入了Attention 模型,那么 mouse 对于它的影响应该是最大的。

4.Attention 模型的特点是 Decoder 不再将整个输入序列编码为固定长度的中间语义向量  ,而是根据当前生成的新单词计算新的 $C_{i}$ ,使得每个时刻输入不同的  ,这样就解决了单词信息丢失的问题。

5.三种aij权重系数计算中score的计算方法,第一种设encoder隐层维度与decoder相等,第二种设encoder隐层维度与decoder隐层维度不等。

6.Bahdanau等人提出的用Attention,其核心内容是为输入向量的每个单词学习一个权重。

Transformer

纯attention的模型:https://zhuanlan.zhihu.com/p/48508221

英文原版:http://jalammar.github.io/illustrated-transformer/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Seq2Seq模型是一种神经网络模型,用于将一个序列转换为另一个序列。它由两个主要组件组成:编码器和解码器。编码器将输入序列转换为一个固定长度的上下文向量,解码器使用该上下文向量生成输出序列。经典的Seq2Seq模型没有引入注意力机制,它使用固定长度的上下文向量来传递整个输入序列的信息。然而,引入注意力机制可以提高模型的性能。 注意力机制是一种在解码器中引入的机制,用于选择编码器输出的特定部分,以便在生成每个输出时更关注相关的输入信息。它允许解码器根据输入序列的不同部分调整其注意力重点。通过这种方式,注意力机制可以解决长输入序列和翻译过程中的对齐问题。 有多种注意力机制的变体,其中一种常见的是基于Bahdanau等人的论文提出的注意力机制。该机制使用可学习的权重将编码器的输出与解码器的隐藏状态进行权求和,以确定解码器应关注的输入部分。 另一种常见的注意力机制是基于Luong等人的论文提出的注意力机制。该机制通过计算编码器输出和解码器隐藏状态之间的点积注意力权重,来确定解码器应关注的输入部分。 注意力机制的引入使得模型能够更好地关注输入序列的相关部分,从而提高模型在序列转换任务上的性能。 综上所述,Seq2Seq模型是一种用于将一个序列转换为另一个序列的神经网络模型。经典的Seq2Seq模型由编码器和解码器组成,没有引入注意力机制。而注意力机制是一种在解码器中引入的机制,用于选择输入序列的特定部分以提高模型性能。常见的注意力机制包括基于Bahdanau等人的论文和Luong等人的论文提出的机制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值