目录 一、技术构成 二、深度学习和强化学习区别 三、两种决策方法 四、强化学习的工作方式 五、强化学习网络设计 六、奖励的使用 一、技术构成 深度强化学习由两个技术构成: 1)RL:Reinforce Learning 强化学习 2)DL:Deep Learning 深度学习 二、深度学习和强化学习区别 1)强化学习完成两个任务:规划 和 决策 2)深度学习完成:特征映射,提取语义信息。 规划:达到最终状态,中间采取的一系列动作,不仅对当前状态做反应,还要考虑到未来。 三、两种决策方法 1)DQN 基于value做决策 易训练 2