什么是actor和Critic
目录
一、QAC
这是on-policy,不需要再加e-greedy因为policy已经是随机的了。
二、Advantage actor-critic (A2C)
1.baseline性质
b*太复杂了,所以去掉前面的梯度,只要
2.baseline引入到ac
因为是均值,如果函数为正,说明现在q比平均好,所以叫优势函数
因为有期望,所以随机采样
三、off-policy actor-critic
四、Deterministic actor-critic(DPG)
输出的a是确定的,S和A是映射关系