深度强化学task05

一、sparse reward
如果是复杂的问题很难会得到reward,所以要在中间的时间点给一些reward,以引导行为,但是中间加入的reward不一定就会对最终任务的完成有利,因此需要增加一个新的reward
在这里插入图片描述
这里面新的reward就是ICM,它的作用是给mechine加上“好奇心”。下面看怎么加ICM
在这里插入图片描述
这里面看两个state的差值,如果差值越大则奖励越大。这里面的network是单独训练的网络。
然后又有一个改进版的
在这里插入图片描述
这里面feature extractor的作用是把state里面无关紧要的东西过滤掉
二、imitation learning
有两种方法进行模仿学习

  1. behavior cloning

    就是监督学习的方法。缺点是容易把不好的行为学到,而且很难把所有经验都学到,而没学到的很容易失之毫厘,谬以千里。
  2. inversed reinforcement learning
    在这里插入图片描述
    相当于是反过来,通过expert得出reward function
    在这里插入图片描述
    比如先由有经验的人玩N场游戏,再由机器玩N场游戏,将他们的序列都记录下来,然后对比得出reward function,要保证人的分数总是比机器的好,然后根据reward function 再得到新的policy function
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值