在Q表中我们描述状态空间的时候一般用的是状态个数,而在神经网络中我们用的是状态维度。
在本质上强化学习与深度学习解决的问题差异大,一个解决序列问题,一个解决静态问题,所以当深度学习应用于强化学习,需要进行转化。用深度学习的结果预测真实的Q值。DQN训练与普通深度学习训练其中一点不同的是深度学习可以随机从样本中抽取独立分布的样本,而DQN 获取基于当前与环境发生交互的结果,每次迭代样本有一定的关联度。这个可以通过经验回放解决问题。
在Q表中我们描述状态空间的时候一般用的是状态个数,而在神经网络中我们用的是状态维度。
在本质上强化学习与深度学习解决的问题差异大,一个解决序列问题,一个解决静态问题,所以当深度学习应用于强化学习,需要进行转化。用深度学习的结果预测真实的Q值。DQN训练与普通深度学习训练其中一点不同的是深度学习可以随机从样本中抽取独立分布的样本,而DQN 获取基于当前与环境发生交互的结果,每次迭代样本有一定的关联度。这个可以通过经验回放解决问题。