自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_45690566的博客

原创强化学习：First return, then explore论文笔记

之前的RL算法并没有将返回和探索分开，而是将探索贯穿整个章节，通常是通过在一小部分时间内添加随机动作或从随机策略(一个决定在每种状态下采取哪种动作的函数，通常是神经网络)中取样来进行探索。为了避免脱离问题，Go-explore构建了一个存档（archive），用来保存Agent在环境中访问过的不同Go-Explore系列算法的有效性表明，它将使许多可以被视为顺序决策问题的领域取得进展，包括机器人、语言理解和药物设计。这些示例只是Go-explore方向的一小部分，未来工作的一个关键方向是学习细胞表示。

2022-10-09 19:45:47 237 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Start1w CSDN认证博客专家 CSDN认证企业博客

码龄5年

IP 属地：山东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

1: 原创

164万+: 周排名

35万+: 总排名

237: 访问

: 等级

12: 积分

1: 粉丝

1: 获赞

3: 评论

2: 收藏

私信

关注

热门文章

强化学习：First return, then explore论文笔记 235

最新评论

强化学习：First return, then explore论文笔记
q280570856: 有仿真的代码吗？
强化学习：First return, then explore论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。

最新文章

强化学习：First return, then explore论文笔记

提示

确定要删除当前文章？

取消删除