A Neural Conversational Model

最新推荐文章于 2024-03-20 17:39:34 发布

cythine

最新推荐文章于 2024-03-20 17:39:34 发布

阅读量355

点赞数 1

分类专栏： NLP 深度学习文章标签： chatbot coversational model Seq2Seq

NLP 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

摘要：这篇文章提出了一个利用Seq2Seq框架构建对话模型的简单方法。模型根据之前的句子预测下一个句子。这个模型的优点是能够实现end-to-end的训练而且仅需要很少的手写规则。在被给予大量对话训练集的基础之上，该模型能够生成简单的对话。初步结果显示，尽管优化了错误的目标函数，这个模型的效果也非常好。它不仅不能够从某一领域特定数据集中抽取知识，还能够从一个大量的，有噪声的电影字幕中抽取知识。在一个特别定的IT帮助数据集中，这个模型能够通过对话对一个技术问题提出解决方案。在一个有噪声的开放域电影记录数据集中，这个模型表现出通过简单的常识推理形式得出答案。
意料之中，我们也发现这个模型具有普遍的缺点：缺少一致性。
介绍
我们的模型预其他不同对话系统不同的是，提出了一个end-to-end的方法来解决缺少领域知识的问题。原则上其他系统会为候选答案打分排序，但是我们的模型是给出上下文，训练概率模型，最大化答案的概率，最后生成一个答案。
模型
模型基于Seq2Seq框架，RNN网络。通过反向传播进行学习，基于上下文最大化正确句子的交叉熵。
在这里插入图片描述
与像翻译这样更简单的任务不同，像序Seq2Seq这样的模型由于几个明显的简化而无法成功地“解决”建模对话的问题：这个目标函数的优化不能捕捉人类对话的真正目的，这个是一个长期的基于信息交换而不是下一步预测。作为一个纯的无监督模型，无法保证一致性以及常识性是另外一个明显的缺陷。

数据集
两个数据集：一个closed-domain的IT服务台故障排除数据集，一个open-domain的电影记录数据集。
（1）IT HelpdeskTroubleshooting dataset
经典交互为400词
转折被明显标记
训练集30M句子
验证集3M句子
常见名，数字，URLs被清理
（2）OpenSubtitles dataset
xml格式
数据清理：去除格式以及不是对话的文本
转折没有标明
训练集62M句子
验证集26M句子
一对句子中的每个句子要不出现在训练集中要不出现在测试集中

实验
（1）IT HelpdeskTroubleshooting dataset
一个单层LSTM：1024个记忆单元，使用stochastic gradient decent
（2）OpenSubtitles dataset
两层LSTM：每一层都为4096个记忆单元，最后投影到2048个线性单元，然后再将信息喂给分类器。
与rule-based机器人CleverBot作比较。引入人工评价。

讨论
提出一个基于Seq2Seq的简单语言模型。然而模型可能需要大量的更改才能够实现现实对话。由于存在许多限制，缺乏人格，所以系统很难通过图灵测试。

cythine

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Neural Conversational Model

摘要：这篇文章提出了一个利用Seq2Seq框架构建对话模型的简单方法。模型根据之前的句子预测下一个句子。这个模型的优点是能够实现end-to-end的训练而且仅需要很少的手写规则。在被给予大量对话训练集的基础之上，该模型能够生成简单的对话。初步结果显示，尽管优化了错误的目标函数，这个模型的效果也非常好。它不仅不能够从某一领域特定数据集中抽取知识，还能够从一个大量的，有噪声的电影字幕中抽取知识。在一...
复制链接

扫一扫

专栏目录