深度强化学task05

最新推荐文章于 2024-07-04 16:32:02 发布

lukem44

最新推荐文章于 2024-07-04 16:32:02 发布

阅读量150

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lukem44/article/details/109519619

版权

一、sparse reward
如果是复杂的问题很难会得到reward，所以要在中间的时间点给一些reward，以引导行为，但是中间加入的reward不一定就会对最终任务的完成有利，因此需要增加一个新的reward
在这里插入图片描述
这里面新的reward就是ICM，它的作用是给mechine加上“好奇心”。下面看怎么加ICM

这里面看两个state的差值，如果差值越大则奖励越大。这里面的network是单独训练的网络。
然后又有一个改进版的

这里面feature extractor的作用是把state里面无关紧要的东西过滤掉
二、imitation learning
有两种方法进行模仿学习

behavior cloning

就是监督学习的方法。缺点是容易把不好的行为学到，而且很难把所有经验都学到，而没学到的很容易失之毫厘，谬以千里。
inversed reinforcement learning

相当于是反过来，通过expert得出reward function

比如先由有经验的人玩N场游戏，再由机器玩N场游戏，将他们的序列都记录下来，然后对比得出reward function，要保证人的分数总是比机器的好，然后根据reward function 再得到新的policy function

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度强化学task05

一、sparse reward如果是复杂的问题很难会得到reward，所以要在中间的时间点给一些reward，以引导行为，但是中间加入的reward不一定就会对最终任务的完成有利，因此需要增加一个新的reward这里面新的reward就是ICM，它的作用是给mechine加上“好奇心”。下面看怎么加ICM这里面看两个state的差值，如果差值越大则奖励越大。这里面的network是单独训练的网络。然后又有一个改进版的这里面feature extractor的作用是把state里面无关紧要的东
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。