Seq2seq模型以及Attention机制

本文深入探讨Seq2seq模型,包括Encoder和Decoder结构,以及如何利用RNN/LSTM实现。重点讲解了Attention机制在序列生成过程中的作用,通过机器翻译示例解释其工作原理,最后提到了Beam Search策略在解决Decoder生成问题上的应用。
摘要由CSDN通过智能技术生成

Seq2seq模型

本文将对基于RNN/LSTM的传统的Seq2seq模型做一个介绍。Seq2Seq模型一般都有Encoder和Decoder两个结构,由Encoder来处理input sequence然后生成一个句子的embedding vector交给Decoder来决定要什么样的output sequence。这种模型可以用RNN/LSTM来实现。

1.回顾RNN

我们知道无论时间序列有多长,结构中每一个时刻对应的Whh, Wxh, Why是参数共享的,RNN中每一个时间部的输出都可以用以下的形式来表示(根据不同的任务g可以取不同的激活函数):
h(t) = g(Whh·h(t-1) + Wxh·x(t))
y(t) = g(Why·h(t))
在这里插入图片描述
一般的DNN是指沿纵向一层一层堆叠的神经网络,而RNN是沿时间维度横向堆叠的特殊的神经网络,当然RNN也可以是Deep的,同一层不同时部的参数是共享的,不同层的参数是不同的,像下图所示:
在这里插入图片描述
有人说一般的RNN每一个时间部的输出只考虑了前面时间部的信息,而没考虑后面的,所以就有了双向的即bidirectional RNN,如下图所示:
在这里插入图片描述
LSTM的结构与RNN类似这里不过过多介绍,都可以用来实现Seq2seq模型,下文中的结构部可以当作是RNN/LSTM都可以,道理相同。

2. Generation(Decoder)

首先来考虑如何生成一个句子,也就是Decoder部分要做的事情。Decoder每一时刻的输入是前一时刻的输出(可以用one-hot的形式来表示),每一时刻的输出是一个跟词表大小等长的distribution(一般用softmax做激活函数)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值