A Neural Conversational Model

摘要:这篇文章提出了一个利用Seq2Seq框架构建对话模型的简单方法。模型根据之前的句子预测下一个句子。这个模型的优点是能够实现end-to-end的训练而且仅需要很少的手写规则。在被给予大量对话训练集的基础之上,该模型能够生成简单的对话。初步结果显示,尽管优化了错误的目标函数,这个模型的效果也非常好。它不仅不能够从某一领域特定数据集中抽取知识,还能够从一个大量的,有噪声的电影字幕中抽取知识。在一个特别定的IT帮助数据集中,这个模型能够通过对话对一个技术问题提出解决方案。在一个有噪声的开放域电影记录数据集中,这个模型表现出通过简单的常识推理形式得出答案。
意料之中,我们也发现这个模型具有普遍的缺点:缺少一致性。
介绍
我们的模型预其他不同对话系统不同的是,提出了一个end-to-end的方法来解决缺少领域知识的问题。原则上其他系统会为候选答案打分排序,但是我们的模型是给出上下文,训练概率模型,最大化答案的概率,最后生成一个答案。
模型
模型基于Seq2Seq框架,RNN网络。通过反向传播进行学习,基于上下文最大化正确句子的交叉熵。
在这里插入图片描述
与像翻译这样更简单的任务不同,像序Seq2Seq这样的模型由于几个明显的简化而无法成功地“解决”建模对话的问题:这个目标函数的优化不能捕捉人类对话的真正目的,这个是一个长期的基于信息交换而不是下一步预测。作为一个纯的无监督模型,无法保证一致性以及常识性是另外一个明显的缺陷。

数据集
两个数据集:一个closed-domain的IT服务台故障排除数据集,一个open-domain的电影记录数据集。
(1)IT HelpdeskTroubleshooting dataset
经典交互为400词
转折被明显标记
训练集30M句子
验证集3M句子
常见名,数字,URLs被清理
(2)OpenSubtitles dataset
xml格式
数据清理:去除格式以及不是对话的文本
转折没有标明
训练集62M句子
验证集26M句子
一对句子中的每个句子要不出现在训练集中要不出现在测试集中

实验
(1)IT HelpdeskTroubleshooting dataset
一个单层LSTM:1024个记忆单元,使用stochastic gradient decent
(2)OpenSubtitles dataset
两层LSTM:每一层都为4096个记忆单元,最后投影到2048个线性单元,然后再将信息喂给分类器。
与rule-based机器人CleverBot作比较。引入人工评价。

讨论
提出一个基于Seq2Seq的简单语言模型。然而模型可能需要大量的更改才能够实现现实对话。由于存在许多限制,缺乏人格,所以系统很难通过图灵测试。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值