强化学习——off-policy

最新推荐文章于 2024-05-28 12:19:40 发布

chen5561

最新推荐文章于 2024-05-28 12:19:40 发布

阅读量593

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duyue3052/article/details/82689818

版权

强化学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Table of Contents

p(x)/q(x)是一个权重

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布

我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度

分子分母差别过大会导致，效果不好

优化参数的同时，保持行为尽量一致，类似于一个正则化

左图是正面情况，更新参数，a发生的几率增加，往右跑；右图是负面情况，更新参数，a发生的几率减少，不过不能让p变化太大。

p(x)/q(x)是一个权重

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布

我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改

分子分母差别过大会导致，效果不好

优化参数的同时，保持行为尽量一致，类似于一个正则化

左图是正面情况，更新参数，a发生的几率增加，往右跑；右图是负面情况，更新参数，a发生的几率减少，不过不能让p变化太大。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习——off-policy

Table of Contentsp(x)/q(x)是一个权重这个取样的过程就是与环境互动出现一个轨迹的过程横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度分子分母差别过大会导致，效果不好优化参数的...
复制链接

扫一扫

专栏目录

chen5561 CSDN认证博客专家 CSDN认证企业博客

码龄8年

40: 原创

24万+: 周排名

113万+: 总排名

8万+: 访问

: 等级

1280: 积分

45: 粉丝

36: 获赞

39: 评论

211: 收藏

私信

关注

热门文章

分类专栏

最新评论

NYU Hand Pose Dataset与SCLI的matlab实现——与回头一想
imdouyaya: 你好，可以麻烦您分享一下NYU hand pose dataset吗！下了很多次没有成功，非常感谢！我的邮箱是1823406027@qq.com！或者其他方式也行！
NYU Hand Pose Dataset与SCLI的matlab实现——与回头一想
Wendy_lz: RGB是因为图像质量比较差，所以看起来很怪，深度图总是显示蓝色是因为作者为了保存成JPG，将float 数据给“折叠“了，就类似于换了一种表示方法，我记得是将3个8位分别放到RGB的三个通道去了，你反向解析出来就可以了，过去太久了，具体细节不太记得了，但是作者数据保存思想是这样的
NYU Hand Pose Dataset与SCLI的matlab实现——与回头一想
Wendy_lz: 下到了的，你留个联系方式
NYU Hand Pose Dataset与SCLI的matlab实现——与回头一想
hsstudents: 你好，请问下载到NYU Hand Pose Dataset数据集了吗？我也找不到
Dopamine 使用教程
奋斗中的小宸宸: dopamine一定要在Ubuntu环境下吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。