强化学习及其在NLP上的应用

what is RL?

RL输入是一个序列,很大程度上两次输入的相关联

Different kinds of RL

线性或非线性拟合会有几个问题:1、默认数据独立同分布,但是输入数据间有关联 2、target不稳定,label 好坏程度或正确程度不稳定

DQN对其进行三方面改进:1、深度卷积神经网络拟合能力比较强  2、通过之前的样本或者别人的样本进行训练,主要是打乱样本之间的相关性

状态--》策略拟合

动作很多或者连续动作空间,会消耗更多的资源不适合用基于值的RL

适合使用基于策略的RL,减少过程计算

缺点:

高方差:ac算法或a3c算法可以解决高方差这个问题

目的:骷髅拿到钱

确定性策略问题:灰色块往左走,白色块往右走,那一直得不到想要的结果

随机性策略:可以探索更多的区域

RL在离散空间有天然的优势,文本生成、序列决策

 相似的论文:"Adversarial Learning for Neural Dialogue Generation (2017)"

GAN 不能用于自然语言处理和文本生成:

判别器 生成器:判别器加0.1,在词库可能找不到

判别器:CNN      生成器:LSTM

视频参考链接:http://www.mooc.ai/course/503/learn#lesson/2762

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值