强化学习打卡之DDPG
DDPG用来解决action是连续的问题,其实有个概念挺混乱的,DQN是用来解决状态空间和动作空间过大的问题,连续的动作变量不就是很大的动作空间吗,为啥它不能解决连续动作变量的问题呢,直到跟上上一章Actor-Critic对比才知道跟神经网络的输入输出有关,因为DQN的神经网络输出的每个动作的Q值,所以不能解决动作时连续的问题,而Actor-Critic可以,因为用到了PolicyGradient进行策略迭代输出动作的方法,Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning, 它如果在无穷多的动作中计算价值, 从而选择行为,则可能崩溃。
DDPG用的是确定性的网络,输出的直接是一个动作值,在连续的动作场景下,比如说我要输出这个机器人手臂弯曲的角度,这样子的一个动作,我们就输出一个具体的浮点数。而对随机性的策略来说,输入某一个状态 s,采取某一个 action 的可能性并不是百分之百,而是有一个概率 P 的,就好像抽奖一样,根据概率随机抽取一个动作。
上面的神经网络输出是离散动作的概率,和为1,下面神经网络输出的是一个动作值。