复习DQN:

动作价值函数
,依赖于当前动作a和状态s。基于当前的动作s给所有的动作打分,反映动作的好坏。DQN就是用神经网络
来近似
,神经网络的参数记作w。输入是动作s,DQN的神经网络中卷积层全连接层中的参数为w,输出是对动作的打分。
复习TD算法:

观测当前的状态
,并执行动作

动作价值函数
,依赖于当前动作a和状态s。基于当前的动作s给所有的动作打分,反映动作的好坏。DQN就是用神经网络
来近似
,神经网络的参数记作w。输入是动作s,DQN的神经网络中卷积层全连接层中的参数为w,输出是对动作的打分。

观测当前的状态
,并执行动作
1万+
1万+

被折叠的 条评论
为什么被折叠?