Deep Q Learning伪代码分析及翻译

最新推荐文章于 2024-12-31 20:02:07 发布

mahuatengmmp

最新推荐文章于 2024-12-31 20:02:07 发布

阅读量3.5k

点赞数 4

分类专栏： DQN 文章标签： DQN

本文链接：https://blog.csdn.net/mahuatengmmp/article/details/100627005

版权

本文详细分析了Deep Q Learning的伪代码，并提供了相应的代码翻译，深入理解DQN算法的关键步骤。

摘要由CSDN通过智能技术生成

伪代码

在这里插入图片描述

代码翻译及分析

初始化记忆体D中的记忆N
初始化随机权重θaction值的函数Q(Q估计)
初始化权重θ-=θ target-action值的函数^Q(Q现实)
循环:
    初始化第一个场景s1=x1并且预处理场景s1对应的场景处理函数Φ
    循环:
        根据可能性ε选择一个随机动作at,or
        或者选择一个最大值at从函数Q中在场景st下
        执行动作a在模拟器中并且获取一个奖励rt和下一个场景xt+1
        令st