近两年NLP结合上下文的回复生成论文整理(含原文地址及数据集地址)

论文调研

author:Zhang Yu
date:2019/11/06
问题定义:每次判断是否需要对moli当前的话术进行改写(重写),若需要,则结合上下文信息进行生成,若不需要则不做处理。类似于(基于检索的对话生成)
论文检索范围:2018-2019的ACL/NAACL/AAAI/EMNLP
关键字:context/generation/response

1. A Working Memory Model for Task-oriented Dialog Response Generation ※

来源:ACL 2019
主题:生成式的任务型多轮对话
作者:Xiuyi Chen, Jiaming Xu, Bo Xu:
论文链接:https://pdfs.semanticscholar.org/ce6e/1a9fd351e9abcdc39dc11629892435e27c83.pdf
源码:https://github.com/HLTCHKUST/Mem2Seq
贡献: 1. 融入外部知识
 2. 引入了上下文敏感的对话历史编码过程
 3. 在bAbI/DSTC2 达到良好性能

2. Boosting Dialog Response Generation

来源:ACL 2019
作者:WenChao Du,Alan W Black
论文链接:https://www.aclweb.org/anthology/P19-1005
主要解决问题:开放域对话中Bot Response倾向于生成最常见、通用的回复。优化模型来提升生成对话文本的相关性和多样性。
数据集:Persona Dataset(此论文说是单轮数据集,原数据集是多轮,需澄清)

3. Context-Sensitive Generation of Open-Domain Conversational Responses ※

来源:COLING 2018
作者:Wei-Nan Zhang, Yiming Cuiy
论文链接:https://www.aclweb.org/anthology/C18-1206/
主要解决问题:人类的回复过程实际是一个上下文敏感的过程,提出应用于上下文敏感回复生成的动态和静态注意力机制网络。在两份开放域公开数据集的实验结果表明,提出的方法在客观指标和主观指标均优于现有方法。
数据集:Ubuntu/OpenSubtitles

4. Generating More Interesting Responses in Neural Conversation Models with Distributional Constraints ※

来源:EMNLP 2018
作者:Ashutosh Baheti, Alan Ritter
论文链接:https://www.aclweb.org/anthology/D18-1431/
代码链接:https://github.com/abaheti95/DC-NeuralConversation.
主要解决问题:解决回复通常是安全通用的,通过引入内容丰富度和信息相关性来评判生成语句的性能。
数据集:OpenSubtitles http://nlp.stanford.edu/data/OpenSubData.tar

5. Generating Responses with a Specific Emotion in Dialog ※

来源:ACL 2019
作者:Zhenqiao Song, Xiaoqing Zheng
论文链接:https://www.aclweb.org/anthology/P19-1359/
主要解决问题:在对话的生成中融合情感,可分为两种方式。1 使用强烈的情感词 2 比较隐晦的表达情感。
评估标准:BLEU, diversity and the quality of emotional expression.
数据集:1.Short Text Conversation http://ntcir12.noahlab.com.hk/stc.html
2.NLPCC Dataset http://tcci.ccf.org.cn/nlpcc.php

6. Hierarchical Recurrent Attention Network for Response Generation ※

来源:AAAI 2018
作者:Chen Xing, Yu Wu
论文链接:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/16510
主要解决问题:基于上下文的回复生成,将注意力放在对context的word和utterance的建模上,取得了state-of-the-art结果。
数据集:Douban Group https://www.douban.com/group/explore

7. Jointly Optimizing Diversity and Relevance in Neural Response Generation

来源:NAACL 2019
作者:Xiang Gao, Sungjin Lee
论文链接:https://www.aclweb.org/anthology/N19-1125/
主要解决问题:提高对话回应的多样性和相关性。
数据集:1 Switchboard 来源于Learning discourse-level diversity for neural
dialog models using conditional variational autoencoders

2 Reddit http://files.pushshift.io/reddit/comments/

8. Learning to Control the Specificity in Neural Response Generation ※

来源:ACL 2018
作者:Ruqing Zhang, Jiafeng Guo
论文链接:https://www.aclweb.org/anthology/P18-1102/
主要解决问题:控制对话生成的specificity。通过引入specificity编码变量达到控制的目的。
数据集:Short Text Conversation STC2 http://ntcirstc.noahlab.com.hk/STC2/stc-cn.htm

9. MOJITALK: Generating Emotional Responses at Scale

来源:ACL 2018
作者:Xianda Zhou
论文链接:https://www.aclweb.org/anthology/P18-1104/
主要解决问题:普通的对话文本控制情感十分苦难,因此利用对话中的emoji表情来提高对话生成的性能。
数据集:https://drive.google.com/file/d/1l0fAfxvoNZRviAMVLecPZvFZ0Qexr7yU/view?usp=sharing
代码:https://github.com/claude-zhou/MojiTalk

10. Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network

来源 ACL 2018
作者:Xiangyang Zhou, Lu Li
论文链接:https://www.aclweb.org/anthology/P18-1103/
主要解决问题:开放域多轮文本匹配。
数据集:Ubuntu Corpus V1/Douban Conversation Corpus

11.Response Generation by Context-Aware Prototype Editing ※

来源:AAAI 2019
作者: Yu Wu, Furu Wei
论文链接:https://wvvw.aaai.org/ojs/index.php/AAAI/article/view/4714
主要解决问题:开放域响应的生成取得了显著的进展,但有时会产生简短的、不提供信息的响应。提出了基于检索的生成模型。因为检索到的原型为生成提供了一个良好的起点,它是语法和信息丰富的,而后期编辑过程进一步提高了原型的相关性和连贯性。
数据集:Douban Group(单轮对话,只包含一轮上下文) https://www.douban.com/group
源码:https://github.com/MarkWuNLP/ResponseEdit.

12. Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention

来源:ACL 2019
作者:Wenhu Chen, Jianshu Chen
论文链接:https://www.aclweb.org/anthology/P19-1360/
主要解决问题:语义控制的对话生成在单个域中表现良好,但在多领域中,语义信息呈指数增长。通过引入层级结构,来控制多个对话行为的语义,进而提高生成的性能。
数据集:MultiWOZ Multiwoz - A largescale
multi-domain wizard-of-oz dataset for taskoriented
dialogue modelling.

源码:https://github.com/wenhuchen/HDSA-Dialog

13.Skeleton-to-Response: Dialogue Generation Guided by Retrieval Memory

来源:NAACL 2019
作者:Deng Cai, Yan Wang
论文链接:https://www.aclweb.org/anthology/N19-1124/
主要解决问题:在生成任务中,对于给定的查询,从整个训练数据中检索类似的对话,并将其作为额外的知识来源。但由于融入了额外噪音,生成模型性能不佳。本文提出一个新的模型,先从检索到的对话中提取信息,提取后的信息和原上下文进行生成。此方法提高了生成语句的信息量。
数据集:Douban Conversation Corpus

涉及数据集介绍

一个对话数据集的survey

A Survey of Available Corpora for Building Data-Driven Dialogue Systems
https://arxiv.org/pdf/1512.05742.pdf

Persona Dataset

下载链接:https://github.com/huggingface/personas\

  • Cornell Movie Dialogs corpus
  • Supreme Court Conversation Data.
  • Ubuntu Dialogue Corpus for tech-support type discussion.
  • Stack Exchange Data Dump
OpenSubtitles

电影字幕数据集
下载链接:http://opus.nlpl.eu/OpenSubtitles-v2018.php\

Ubuntu Dialogue corpus

介绍:数据规模在100万左右,平均每组数据有8轮对话,最少包括3轮对话。
论文链接:https://arxiv.org/pdf/1506.08909v3.pdf
下载链接:https://github.com/rkadlec/ubuntu-ranking-dataset-creator\

STC(short-text Conversation)

介绍:大型短文本单轮对话语料,来源于新浪微博
论文地址:http://staff.ustc.edu.cn/~cheneh/paper_pdf/2013/HaoWang.pdf\

Douban Conversation Corpus

豆瓣对话数据
下载链接:https://archive.org/details/DoubanConversaionCorpus

MultiWOZ Multiwoz

A largescale multi-domain wizard-of-oz dataset for taskoriented dialogue modelling
下载链接 http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

# 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。* # 环境 python3 # 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 # 使用方法 将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为 ``` raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ... ``` 执行命令即可 ```bash python main.py ``` 或者 ```bash python3 main.py ``` # 生成结果 每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。 生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer ``` query \t answer ``` # 结果的使用 这个就根据每个人不同的情况自主使用即可 个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 **《从产品完整性的角度浅谈chatbot》** 文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。 1. chatbot自身人格的设置 1. 产品上线需要考虑的敏感词处理 1. 文本检索模型的使用 1. 文本生成模型的使用 1. 回答打分机制 1. 万能回答的使用策略 1. 多媒体消息的处理 1. 产品模型部署的问题 # 版权说明 本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值