Neural Approaches to Conversational AI
学姐介绍的一篇综述阅读笔记
SIGIR 2018
主要贡献:
提出一个综合的调查关于最近几年的应用在QA,任务导向和闲聊对话机器人的神经网络方法
描述了现在和传统方法之间的联系,允许我们更好的理解研究为什么并且如何进化并且散发光在我们前行的道路上
提出先进的方法去训练对话数据,使用监督学习和强化学习的方法
概述在搜索对话和工业中使用的标志性对话系统,研究我们已经达到的成就和仍需面对的挑战
对话:
task completion: agent need to accomplish user tasks
social chat: agent need to converse appropriately with users - like a human as measured by the Turing test - and provide useful recommendations
bots : task-oriented & chitchat
dialogue as optimal decision making
连续的决策制定过程。它有一个自然的结构:一个高层次的选择使得客服去激活某一种特别的子任务,和 一个低层次的过程,又被选择的客服控制,选择最初的动作去完成子任务。
这样的层次决定制定过程能被马尔科夫决策过程(MDPs)描述,这里的选择被定义为primitive actions to higher-level actions。这是对传统的MDP的扩展,原来的MDP设置为一个客服在每一个时间步只能选择一个primitive action,新的MDPs可以选择一个“multi-step” action。
如果我们将每一个option看作一个action,那么top- & low- level 都能够自然的被强化学习框架捕捉。对话agent在MDP中导航,通过一系列离散的step to interact with its environment。在每一个时间步,agent会observe the current state, and chooses an action 根据policy。agent之后会收到reward,然后observe a new state,继续这个循环直到阶段终点。goal of dialogue learning 是去发现最佳策略去最大化expected rewards。
sounding board: a social chatbots designed to maximize user engagement , measured by the expected reward function of conversation-turns per session (CPS)。
混合方法去组合不同ML方法的力量,例如,我们可能会使用仿造品或者监督学习方法。
the transition of NLP to Neural Approaches
NLP应用不同于其他数据处理系统,在语言知识应用的多样性方面,包括音系学,词态学,语法,语义和论述。这些组合任务可以被看作是自然语言的模糊性在不同程度上,通过匹配一个自然语言句子到一系列人为定义的清楚的符号表达,例如POS(part of speech),context free grammar, first-order predicate calculus.
代替的,端到端的系统聚焦在小心的裁剪增长的神经网络复杂度
机器学习背景
supervised learning (SL)
mean squared error (MSE)
stochastic gradient descent (SGD)
在未知领域,agent要学会通过和环境互动进而自己去学习如何进行下一步动作,这就是强化学习(RL)。1:agent必须要充分利用已经知道的知识为了去获得奖励,但同时也必须要去探索未知的领域和知识为了在未来有更好的行动选择。2:delay reward and temporal credit assignment:agent 直到session的结束都不知道一个对话是否是成功的完成了任务,因此他必须确定在sequence中的哪个动作会对最后的奖励获得有作用,这个问题就是temporal credit assignment。3:partially observed states:神经网络学习通过编码所有的在现在轮和过去步获得的信息去表示状态
和过去的技术相比,神经网络方法提供一个更有效的解决方案通过利用深度神经网络的表示学习力量。
deep learning
multi-layer perceptron (MLP) inputs/outputs/hidden layers
deep neural networks (DDN)
information retrieval (IR)
设计一个深度学习分类器的主要努力是在优化神经网络结构for effective representation learning。
convolutional layers for local words dependencies & recurrent for global word sequences
deep semantic similarity model (DSSM)
reinforcement learning
agent-environment interaction is modeled as a discrete-time Markov decision process (MDP), described by a five-tuple M=<S,A,P,R,Y>
s:环境能够存在的可能无限大的状态集合;a:agent可能存在的可能无限大的状态集合;p(s'|s,a) 在动作 a 后环境的状态从 s 转移到 s' 转移概率;r(s,a) 在agent再状态 s 执行完动作 a 后 agent 立刻接受到的平均奖励;y 属于 0 到 1,左开右闭
transition : (s,a,r,s'), action-selection policy denoted by π (确定或者随机)