特点 强化学习和深度学习结合使用原始的游戏画面作为输入,使用nn模型提取特征使用深度网络输出作为选在动作a的价值。使用内存空间来缓存历史行为,状态以及奖励值。 算法流程 对于转换状态的reward奖励,如果是终结状态,则使用最终的结果作为reward奖励;如果是中间状态,使用之前的reward奖励+Q价值网络预估结果作为最终的奖励。