一、简介
1、深度强化学习出现的原因
传统的强化学习中当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间,这种情况下使用Q-Table不现实。同时实现端到端的控制也是要求能处理高维的,如图像、声音等的数据输入。而前些年开始兴起的深度学习,刚好可以应对高维的输入,如果能将两者结合,那么将使智能体同时拥有深度学习的理解能力和强化学习的决策能力。
2、深度强化学习的简介
深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,深度强化学习(Deep Reinforcement Learning)将深度学习的感知能力和强化学习的决策能力相结合,优势互补,可以直接从高维原始数据学习控制策略,是一种更接近人类思维方式的人工智能方法。
深度强化学习通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出