Reward Estimation for Dialogue Policy Optimisation 阅读
这是本周5月7日到5月13日约定看完的,每看完一部份,就写一段简要翻译和感想摘录吧。
希望能坚持下去。
Abstract
将对话管理看作是一个强化学习任务可以使得一个系统尝试最大化回报函数,从而优化行为。这个回报函数被设置为诱导系统动作满足目标应用和任务驱动应用,这一般意味着要尽可能地满足用户的目标。但是,在真实口语对话系统中,因为用户的目标一般只有他们自己知道,所以回报很难被衡量。当然,
原创
2018-05-08 23:07:43 ·
231 阅读 ·
0 评论