强化学习及其在NLP上的应用

最新推荐文章于 2024-01-21 03:40:55 发布

BUPT-WT

最新推荐文章于 2024-01-21 03:40:55 发布

阅读量3.1k

点赞数

分类专栏： Paper

Paper 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

what is RL?

RL输入是一个序列，很大程度上两次输入的相关联

Different kinds of RL

线性或非线性拟合会有几个问题：1、默认数据独立同分布，但是输入数据间有关联 2、target不稳定，label 好坏程度或正确程度不稳定

DQN对其进行三方面改进：1、深度卷积神经网络拟合能力比较强 2、通过之前的样本或者别人的样本进行训练，主要是打乱样本之间的相关性

状态－－》策略拟合

动作很多或者连续动作空间，会消耗更多的资源不适合用基于值的RL

适合使用基于策略的RL，减少过程计算

缺点：

高方差：ac算法或a3c算法可以解决高方差这个问题

目的：骷髅拿到钱

确定性策略问题：灰色块往左走，白色块往右走，那一直得不到想要的结果

随机性策略：可以探索更多的区域

RL在离散空间有天然的优势,文本生成、序列决策

相似的论文："Adversarial Learning for Neural Dialogue Generation (2017)"

GAN 不能用于自然语言处理和文本生成：

判别器生成器：判别器加0.1，在词库可能找不到

判别器：CNN 生成器：LSTM

视频参考链接：http://www.mooc.ai/course/503/learn#lesson/2762

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄7年

793: 原创

12万+: 周排名

160万+: 总排名

62万+: 访问

: 等级

1万+: 积分

366: 粉丝

260: 获赞

100: 评论

1140: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。