(7-3)DDQN(双重深度 Q 网络):超级马里奥游戏的DDQN强化学习实战(2)

本文详细描述了如何使用DDQN算法在超级马里奥游戏中进行模型训练和测试,涉及show_state函数用于实时可视化游戏状态,以及run函数实现训练和测试逻辑,包括参数配置、环境预处理、模型训练和保存。
摘要由CSDN通过智能技术生成

7.3.5  模型训练和测试

本阶段将实型一个整体的训练和测试流程,包含了训练和测试的功能。

(1)定义函数show_state(),其主要功能是在测试过程中显示超级马里奥游戏的环境状态。具体实现代码如下所示。

def show_state(env, ep=0, info=""):
    """在测试时显示超级马里奥游戏环境的状态"""
    plt.figure(3)
    plt.clf()
    plt.imshow(env.render(mode='rgb_array'))
    plt.title("Episode: %d %s" % (ep, info))
    plt.axis('off')

    display.clear_output(wait=True)
    display.display(plt.gcf())

函数show_state(env, ep=0, info="")接受如下所示的3个参数:

  • 51
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农三叔

感谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值