对话策略相关论文摘要

[1] Peng B, Li X, Gao J, et al. Integrating planning for task-completiondialogue policy learning[J]. 2018.

题目:Integrating planning for task-completiondialogue policy learning(在任务导向的对话策略学习中整合规划)

作者:Baolin Peng香港大学,研究方向:2016年~至今主要研究任务导向的对话系统(关键字:条件随机场、强化学习、循环神经网络、Attention);2013~2015主要研究文本分类、自然语言理解(LSTM、循环条件随机场)。

来源:arXiv

年份:2018

摘要:用真实用户训练任务导向的对话代理(通过强化学习)是很昂贵的,因为需要与用户进行大量的交互。另一种方法是使用用户模拟器,但是模拟用户和真实用户之间的差异使得学习策略不可靠。为解决这一挑战,本文基于Dyna-Q框架将规划整合到了对话策略学习中,并提出了一种更加简单有效的对话策略学习方法。使用有限且真实的用户数据生成大量的模拟数据,从而训练规划器,代理由训练好的规划器组成,通过电影预定任务检验该方法的有效性。

[2]Chen L, Yang R, Chang C, et al. On-lineDialogue Policy Learning with Companion Teaching[C]// Eacl. 2017.

题目:On-line Dialogue Policy Learning with Companion Teaching(同伴教学的在线对话策略学习)类似的方法还在EMNLP(自然语言处理顶级会议)发表了一篇Chang C, Yang R, Chen L, et al. Affordable On-line DialoguePolicy Learning[C]// Conference on Empirical Methods on Natural LanguageProcessing. 2017.

作者:Lu Chen上海交通大学。研究方向:对话系统(关键字:对话状态跟踪、对话策略学习、约束马尔科夫贝叶斯多项式constrained Markov Bayesian Polynomial)

期刊:EACL

年份:2017

摘要:在线对话策略学习是建立真实情境中可发展对话代理的关键,孱弱的初始对话策略会导致用户体验差,从而导致用户流失,这样就没有足够的真实用户数据来训练对话策略。本文提出一个新的框架——同伴教学,可以在在线对话策略训练中包含人类教师,从而解决冷启动问题。即,不仅使用用户反馈训练对话策略,而且还使用“教师”的示例数据。模拟实验结果表明,只用少量的人类教学对话即可有效提升用户体验。

[3] Su P H, Gasic M, Mrksic N, et al. On-line Active RewardLearning for Policy Optimisation in Spoken Dialogue Systems[J]. 2016:2431-2441.

题目:On-line Active Reward Learning for PolicyOptimisation in Spoken Dialogue Systems(使用在线主动回报学习优化口语对话系统中的策略),这篇论文获得了ACL2016的最佳学生论文。

作者:Pei-Hao Su,剑桥大学,研究方向:对话系统(对话策略优化、对话管理、强化学习、端到端、高斯过程)

期刊:ACL

年份:2016

摘要:计算精确的reward function对于通过强化学习来优化对话策略很重要。实际应用中,用显式的用户反馈作为reward信号往往不可靠并且难收集。如果用户的intent提前知道,或者数据可获取用于离线预训练,但实际上这两个都不能应用于大多数实际系统的应用。这里我们提出了一个在线学习架构,对话策略通过基于高斯过程的主动学习机制来训练,高斯过程在一个用rnn encoder-decoder生成的连续空间对话表示中作用。实验表明本文提出的框架能够显著降低对话策略学习中数据注释成本和噪声用户反馈。

中文资料:https://blog.csdn.net/kpmoving/article/details/53940249

[4]必读Gasic M,Young S. Gaussian Processes for POMDP-Based Dialogue Manager Optimization[M].IEEE Press, 2014.

题目:Gaussian processes for POMDP-based dialoguemanager optimisation使用高斯过程优化基于POMDP的对话管理

作者:Milica Gasic,剑桥大学,与上一篇论文的第一作者属于同一个团队。研究方向:对话系统

期刊:IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING

年份:2014

摘要:提出在对话模型中使用部分可观马尔科夫决策过程(POMDP),可以自动优化对话策略。POMDP适合建立真实的对话系统,但是需要大量的对话数据来训练,所以采用用户模拟器模拟用户。好的对话策略需要依赖大量的人类知识,本文提出在对话策略建模中使用高斯过程(Gaussian Processes,GPs)来克服这一难题。作者认为,GP策略优化适合真实世界POMDP对话管理,具体是:(1)检验GP策略的不同公式来最小化学习过程中的变化;(2)如果直接和人类用户交互,引入GP可以提高学习率;(3)一开始设计的规则会逐渐弱化,因为策略依赖全信念空间,从而避免了特定特征空间模型。总的来说,GP方法是朝着真实世界中全自动对话策略中重要的一步。

中文资料:PaperWeekly 第40期 | 对话系统任务综述与基于POMDP的对话系统 http://www.sohu.com/a/146206452_500659

[5] Mo K, Li S, Zhang Y, et al. Personalizinga Dialogue System with Transfer Reinforcement Learning[J]. 2017.

题目:Personalizing a Dialogue System with Transfer Reinforcement Learning(用迁移强化学习使对话系统个性化)、

作者:莫凯翔,香港科技大学,研究方向:迁移学习、强化学习、对话系统

期刊:The Thirty-Second AAAI Conference onArtificial Intelligence (AAAI-18)

年份:2017

摘要:训练个性化的任务导向对话系统很难,因为缺乏个体数据。基于小样本集训练的个性化对话系统可能会过拟合,且无法适应不同的用户。解决方法之一是使用迁移学习,将多个用户的数据作为源领域(source domain),将个体用户作为目标领域(target domain)。基于这一方法,本文提出了任务导向的个性化对话系统(Personalized Task-oriented dialogue system,PETAL),迁移学习框架基于POMDP。PETAL系统首先从源领域学习通用对话知识,然后调整知识到目标领域。PETAL系统考虑到了源和目标用户之间的不同,从而避免了消极迁移问题。实验数据是真实的购买咖啡的数据,模拟数据表明PETAL系统可以学习到不同用户的最优策略,有效地提高对话质量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值