一、强化学习与监督学习的区别
- 强化学习是通过与环境交互获取reward来更新agent网络参数的。
- 监督学习是通过已有的标签数据来更新agent网络参数的。
- 强化学习并不需要正确的“输入/输出对”数据,强化学习‘强’就是因为其训练过程不需要准备大量的带标签的训练样本,它重视的是环境给予的反馈,训练是一个交互学习的过程。
- 监督需要大量正确的“输入/输出对”数据,它重视的是teacher作出的评判,训练是一个老师指导学习的过程。
二、强化学习做任务式对话决策的优势
- 相比于监督学习,使用深度强化学习优化agent网络,使任务完成的成功率显著提高,对话轮数明显缩短[1]。
- 使用深度强化优化能提升agent的鲁棒性,以处理对话系统其它模块引入的噪声,例如NLU[2]。
引用:
- Bing Liu, Gokhan Tür, Dilek Hakkani-Tür, Pararth Shah and Larry Heck. End-to-End Optimization of Task-Oriented Dialogue Model with Deep Reinforcement Learning
- Xiujun Li, Yun-Nung Chen, Lihong Li, Jianfeng Gao and Asli Celikyilmaz. End-to-End Task-Completion Neural Dialogue Systems