强化学习及其在NLP上的应用

what is RL?

RL输入是一个序列,很大程度上两次输入的相关联

Different kinds of RL

线性或非线性拟合会有几个问题:1、默认数据独立同分布,但是输入数据间有关联 2、target不稳定,label 好坏程度或正确程度不稳定

DQN对其进行三方面改进:1、深度卷积神经网络拟合能力比较强  2、通过之前的样本或者别人的样本进行训练,主要是打乱样本之间的相关性

状态--》策略拟合

动作很多或者连续动作空间,会消耗更多的资源不适合用基于值的RL

适合使用基于策略的RL,减少过程计算

缺点:

高方差:ac算法或a3c算法可以解决高方差这个问题

目的:骷髅拿到钱

确定性策略问题:灰色块往左走,白色块往右走,那一直得不到想要的结果

随机性策略:可以探索更多的区域

RL在离散空间有天然的优势,文本生成、序列决策

 相似的论文:"Adversarial Learning for Neural Dialogue Generation (2017)"

GAN 不能用于自然语言处理和文本生成:

判别器 生成器:判别器加0.1,在词库可能找不到

判别器:CNN      生成器:LSTM

视频参考链接:http://www.mooc.ai/course/503/learn#lesson/2762

发布了361 篇原创文章 · 获赞 59 · 访问量 12万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览