TD更新:
Q值的期望(均值)就是V
1. 为了避免正数陷阱,我们希望Actor的更新权重有正有负。因此,我们把Q值减去他们的均值V。有:Q(s,a)-V(s)
2. 为了避免需要预估V值和Q值,我们希望把Q和V统一;由于Q(s,a) = gamma * V(s') + r - V(s)。所以我们得到TD-error公式: TD-error = gamma * V(s') + r - V(s)
3. TD-error就是Actor更新策略时候,带权重更新中的权重值;
4. 现在Critic不再需要预估Q,而是预估V。而根据马可洛夫链所学,我们知道TD-error就是Critic网络需要的loss,也就是说,Critic函数需要最小化TD-error。
actor就是 Policy,补充一下policy gradient:
原理:
代码理解:
不明白为什么提升到128维
总结的挺好
MADDPG的actor-critic部分讲的很好
DDPG补充,全连接层的作用
强化学习符号表述
优势函数,码住,以后可以看看