基于强化学习的文本生成技术

本文探讨了深度强化学习(DRL)如何应用于自然语言处理(NLP)领域的文本生成任务,通过三篇文章展示了DRL在改善seq2seq模型、对话生成和任务导向的户内导航对话系统中的应用。研究中,DQN被用来优化解码过程,提高模型的泛化能力,而分层强化学习则解决了复杂任务的优化问题。
摘要由CSDN通过智能技术生成
               

2013年以来Deep mind团队相继在NIPS和Natures上发表了用深度增强(强化)学习玩Atari游戏,并取得良好的效果,随后Alpha go与李世乭的一战更使得深度增强学习家喻户晓。在游戏上取得了不错的成果后,深度增强学习也逐渐被引入NLP领域。本期介绍目前NLP领域较为热点的研究方向,基于强化学习的文本生成技术(NLG),共选择了三篇文章,分别为:

1.             《Generating Text with Deep Reinforcement Learning》

应用Deep Q-Network作为生成模型用于改善seq2seq模型

2.             《Deep Reinforcement Learning for Dialogue Generation》

应用强化学习进行开放领域的文本生成任务,并对比了有监督的seq2seq加attention模型和基于最大互信息的模型

3.             《Hierarchical Reinforcement Learning for Adaptive TextGeneration_lshowway》

以任务为导向的户内导航对话系统用分层强化学习进行文本生成

以下为三篇文章的主要信息:

一、 《GeneratingText with Deep Reinforcement Learning》

1、作者:Hongyu Guo

2、单位:National Research Council Canada

3、关键词:Reinforcement Learning、seq2seq、text generation

4、来源:NIPS2015 Workshop (2015.10.30)

5、问题:本文提出将Deep Q-Network作为生成模型用于改善seq2seq模型,将decoding修改为迭代式的过程,实验表明本模型具有更好的泛化性。

6、模型:

           对seq2seq模型改进的论文层出不穷,本文率先引入深度强化学习的思想,将DQN用于文本生成。对DQN还不了解的同学可以先阅读DeepMind的论文Playing Atari with Deep ReinforcementLearning。

           本文的模型如下:

           如同一般的神经网络,我们也可以把DQN当做一个黑盒来使用。只需要准备好DQN需要的四个元素s(i),a(i),r(i),s(i+1),分别代表i时刻下state,action,reword和i+1时刻的state

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值