Q-learning训练过程

最新推荐文章于 2023-07-27 10:14:28 发布

IZUMIXINGI

最新推荐文章于 2023-07-27 10:14:28 发布

阅读量698

点赞数

分类专栏： RL

本文链接：https://blog.csdn.net/qq_20252251/article/details/109689603

版权

本文介绍了Q-learning的训练过程，包括使用ε-greedy策略解决局部最优问题，以及Q表格的更新公式，强调了学习速率α和折扣因子γ的影响。通过伪代码展示了Q-learning的算法实现。

摘要由CSDN通过智能技术生成

训练

下面的伪代码说明了我们如何训练，来得到一个尽量完美的Q表格。

初始化 Q = {
   };
while Q 未收敛：
    初始化小鸟的位置S，开始新一轮游戏
    while S != 死亡状态：
        使用策略π，获得动作a=π(S) 
        使用动作a进行游戏，获得小鸟的新位置S',与奖励R(S,a)
        Q[S,A]

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

IZUMIXINGI

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Q-learning训练过程

训练下面的伪代码说明了我们如何训练，来得到一个尽量完美的Q表格。初始化 Q = {};while Q 未收敛：初始化小鸟的位置S，开始新一轮游戏 while S != 死亡状态：使用策略π，获得动作a=π(S) 使用动作a进行游戏，获得小鸟的新位置S',与奖励R(S,a) Q[S,A] ← (1-α)*Q[S,A] + α*(R(S,a) + γ* max Q[S',a]) // 更新Q S ← S'其中有些值得
复制链接

扫一扫