2013年以来Deep mind团队相继在NIPS和Natures上发表了用深度增强(强化)学习玩Atari游戏,并取得良好的效果,随后Alpha go与李世乭的一战更使得深度增强学习家喻户晓。在游戏上取得了不错的成果后,深度增强学习也逐渐被引入NLP领域。本期介绍目前NLP领域较为热点的研究方向,基于强化学习的文本生成技术(NLG),共选择了三篇文章,分别为:
1. 《Generating Text with Deep Reinforcement Learning》
应用Deep Q-Network作为生成模型用于改善seq2seq模型
2. 《Deep Reinforcement Learning for Dialogue Generation》
应用强化学习进行开放领域的文本生成任务,并对比了有监督的seq2seq加attention模型和基于最大互信息的模型
3. 《Hierarchical Reinforcement Learning for Adaptive TextGeneration_lshowway》
以任务为导向的户内导航对话系统用分层强化学习进行文本生成
以下为三篇文章的主要信息:
一、 《GeneratingText with Deep Reinforcement Learning》
1、作者:Hongyu Guo
2、单位:National Research Council Canada
3、关键词:Reinforcement Learning、seq2seq、text generation
4、来源:NIPS2015 Workshop (2015.10.30)
5、问题:本文提出将Deep Q-Network作为生成模型用于改善seq2seq模型,将decoding修改为迭代式的过程,实验表明本模型具有更好的泛化性。
6、模型:
对seq2seq模型改进的论文层出不穷,本文率先引入深度强化学习的思想,将DQN用于文本生成。对DQN还不了解的同学可以先阅读DeepMind的论文Playing Atari with Deep ReinforcementLearning。
本文的模型如下:
如同一般的神经网络,我们也可以把DQN当做一个黑盒来使用。只需要准备好DQN需要的四个元素s(i),a(i),r(i),s(i+1),分别代表i时刻下state,action,reword和i+1时刻的state