李宏毅强化学习笔记【4.Sparse Reward】

最新推荐文章于 2024-05-22 18:04:37 发布

*晴儿*

最新推荐文章于 2024-05-22 18:04:37 发布

阅读量543

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34919415/article/details/104092115

版权

强化学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

没有reward，训练很难。

因为一开始机器什么都不知道，就靠随机。如果随机一个概率特别小的才有reward，reward非常稀疏，就非常难学习，因为做什么动作都一样糟糕。

1.reward shaping

环境有一个固定的reward。我们还可以设计一些reward，这些不是真正的reward，但是可以引导机器去做一些你想要他做的事情。

增加好奇心：

鼓励冒险，真实的s与network1（另外训练出来的）预测的s越不同，reward越大。这样可以探索更多的未知。

问题：有些state很难预测，但是并不重要。

所以再学一个特征提取，把一些没有意义的东西过滤掉。

学习network2，让预测的a和真实采取的动作a越像越好。这样排除无关特征的影响。

2. curriculum learning

为机器的学习做规划，从简单到难。帮机器规划一下课程。

学习目标的state，找附近的state学习，去掉过难或者过简单的state。找到难度适中的state，再在其附近找相似的state。

3. Hierarchical Reinforcement Learning

有很多agent，有的负责定目标，把它分配给其他的agent完成。

如果低层agent做不到，上层agent就会收到惩罚。

如果agent做到了一个错误的目标，把上层的目标给改成这个错误的。（这样动作不会被浪费。）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李宏毅强化学习笔记【4.Sparse Reward】

没有reward，训练很难。因为一开始机器什么都不知道，就靠随机。如果随机一个概率特别小的才有reward，reward非常稀疏，就非常难学习，因为做什么动作都一样糟糕。1.reward shaping环境有一个固定的reward。我们还可以设计一些reward，这些不是真正的reward，但是可以引导机器去做一些你想要他做的事情。增加好奇心：鼓励冒险，真实的s与n...
复制链接

扫一扫

专栏目录

*晴儿* CSDN认证博客专家 CSDN认证企业博客

码龄8年

105: 原创

7万+: 周排名

179万+: 总排名

4万+: 访问

: 等级

1363: 积分

111: 粉丝

32: 获赞

10: 评论

64: 收藏

私信

关注

热门文章

分类专栏

最新评论

【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
我亲爱的老婆: 我想请问一个问题就是离线训练怎么训练啊？有没有相关的项目代码推荐呀
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 论文里这样写的，当我们使用用户的浏览历史数据来训练提出的actor-critic框架时，数据中很少给出用户的浏览数据、新的推荐页面以及用户相应的反馈（奖励）。因此，生成的原动作和有效动作之间存在差距，即无论actor输出的原动作是什么，有效动作都是固定的。这将断开actor和critic的联系。从现有的工作中，我们知道生成的动作和有效动作应该是相似的，这是将actor和critic连接起来进行训练的前提。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 我也不知道那个断开连接是啥意思，论文里这样写的，我看到断开连接这里我就蒙了
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
*晴儿*: 首先，我们生成的物品的表达肯定和物品的真实表达肯定是不一样的（一个向量，一串数字，怎么可能完全一样，所以选择生成的向量最像哪个物品向量，作为强化学习选择的结果）。所以肯定越像真实值奖励越高，越不像真实值奖励越小。我不知道断开连接是啥意思，是指不能bp吗？reward可以自己任意设置，不需要可导，对bp无影响。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 离线训练那里我不懂，为什么生成的a中的e可能不在物品嵌入空间中，这样就使actor和critic断开连接了呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。