actor-critic算法笔记
1.初始化actor网络和critic网络
2.根据当前state,通过动作估计网络得到最好的action,通过当前state和选择执行的action得到执行后的s'和reward(reward是负数,最大为0,就是惩罚,如果要做距离拟合的话可以将相差的距离置负当作reward)
(这里还有一步哦,要把action和得到的s'也带进critic网络得到一个Q‘值
我们最终要让reward学习到0(理想状态)
3.通过action和state输入critic网络得到Q值
4.用q值去更新actor网络的参数(目的是让Q值越来越高)
5用∑(R+γV(S′)−V(S,w))2求loss来更新(V(S')是之后state和action带入得到的,V(S,w)是当前state和action得到的,R是惩罚)critic网络的参数。
重复以上动作