从头实现一个深度学习的对话系统--1,论文简介

本文回顾了几篇关于Seq-to-Seq模型的重要论文,这些论文最初应用于机器翻译,随后被广泛应用于对话系统。Seq-to-Seq模型通过RNN Encoder-Decoder结构解决了序列数据的处理问题,通过Attention机制改善了长序列的处理效果,为对话系统奠定了基础。
摘要由CSDN通过智能技术生成

上篇文章我们介绍了DRL用于对话系统的应用,看完论文我们会发现,其是在一个Seq-to-Seq模型的基础上进行重新训练进而得到效果的提升,那么自然我们会想到如何使用Seq-to-Seq模型构造基础的对话系统呢,接下来我会使用几篇文章来一步步介绍使用Seq-to-Seq构造对话系统过程中所用到的知识和代码。首先让我们从提出Seq-to-Seq模型的论文说起:

本文主要介绍下面几篇Seq-to-Seq刚被提出时的几篇文章:

  1. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
  2. Sequence to Sequence Learning with Neural Networks
  3. Neural Machine Translation by Jointly Learning to Align and Translate
  4. Grammar as a Foreign Language
  5. On Using Very Large Target Vocabulary for Neural Machine Translation
  6. A Neural Conversational Model

这里不会详细的去介绍每一篇论文,而是从作者、时间线、模型结构、应用领域等几个方面介绍一下,因为我在看别人博客、论文的过程中发现这几篇论文总是会被提及,所以就简单做一个总结,至于Seq-to-Seq模型的细节我会放在下一篇文章中进行详细介绍。

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

论文地址:https://arxiv.org/pdf/1406.1078.pdf

发表于2014年6月份,作者是Cho、Bahdanau、Bengio,可以视为Seq-to-Seq的前身,目前引用量已高达1800+。

文章提出了一种RNN Encoder-Decoder的网络结构,如下图所示:之所以说它可以看作是Seq-to-Seq的前身(个人理解),是因为本文并未实现end-to-end训练,而是作为SMT翻译框架中的一部分进行训练。

从上图可以看出,先使用一个RNN模型将输入序列进行编码得到最终的隐藏层状态向量C作为输入序列的向量表示,然后接下来使用另外一个RNN模型对C进行解码,解码过程中每一步的输入是上一部的输出yt-1、上一时刻隐层状态ht-1和C向量,公式如下所示:

然后将所有输出yt的概

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值