rainbow的所有模型:
https://blog.csdn.net/philthinker/article/details/81043882
rainbow论文中文简介:http://www.sohu.com/a/198378840_642762
rainbow Tensorflow代码:https://github.com/google/dopamine/blob/master/dopamine/agents/rainbow/rainbow_agent.py
pytorch代码:https://github.com/Kaixhin/Rainbow
1. Dueling DDQN
https://blog.csdn.net/u013236946/article/details/73161586
https://blog.csdn.net/lipengcn/article/details/81840756 (三个都有)
在许多基于视觉感知的 DRL 任务中,不同的 (s,a) 的值函数是不同的,但是在某些 state 下,值函数的大小与动作无关。为处理这种情况,就需要对 DQN 网络结构作一点改变,即将每个 (s,a) 的 Q 值拆分成了两部分: state 的 value,action 的 advantage。
二、Prioritized experience replay
https://blog.csdn.net/u013236946/article/details/73161586
经验池中TD误差绝对值越大的样本被抽取出来训练的概率越大,加快了最优策略的学习。
用sumtree的结构来选择抽取的样本。
三、A3C
多个agent同时学习,然后将学习的成果集合到global
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-3-A1-A3C/
https://blog.csdn.net/hansry/article/details/80829127
莫凡 pytorch代码:https://github.com/MorvanZhou/pytorch-A3C/blob/master/continuous_A3C.py
v为value function
Q为动作价值函数
优势函数A为Q-v
https://cloud.tencent.com/developer/article/1380817:里面有rainbow的简单讲解。
四、distributional DQN
http://www.sohu.com/a/159915735_464065
论文:https://arxiv.org/pdf/1707.06887.pdf
设定上下两个阀值,减少风险,用分布视角来建模,使其更稳定。
Q为动作价值函数。
ps:
各种DRL的pytorch代码:https://cloud.tencent.com/developer/article/1366479
DRL的改进(各种版本):https://www.jianshu.com/p/3bd1eba0a0f7