其实不应该把Actor-Critic看做是DQN和PG之间的结合
PG是通过MC方法来获得总的回报G的,而这个方式其实有点慢,需要完整的采样。而TD就是针对这个问题改进的措施,DQN本质是就是用网络来实现高维输入下的TD算法,Actor-Critic可以看做是用TD的方法来改进PG
其实不应该把Actor-Critic看做是DQN和PG之间的结合
PG是通过MC方法来获得总的回报G的,而这个方式其实有点慢,需要完整的采样。而TD就是针对这个问题改进的措施,DQN本质是就是用网络来实现高维输入下的TD算法,Actor-Critic可以看做是用TD的方法来改进PG