伪代码 代码翻译及分析 初始化记忆体D中的记忆N 初始化随机权重θaction值的函数Q(Q估计) 初始化权重θ-=θ target-action值的函数^Q(Q现实) 循环: 初始化第一个场景s1=x1并且预处理场景s1对应的场景处理函数Φ 循环: 根据可能性ε选择一个随机动作at,or 或者选择一个最大值at从函数Q中在场景st下 执行动作a在模拟器中并且获取一个奖励rt和下一个场景xt+1 令st