强化学习七日打卡营终极复现之flappy bird

最新推荐文章于 2024-05-20 09:30:15 发布

bnpzsx

最新推荐文章于 2024-05-20 09:30:15 发布

阅读量677

点赞数 2

分类专栏：人工智能文章标签： paddlepaddle 强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011189503/article/details/106969826

版权

本文介绍了使用强化学习方法DQN训练Flappy Bird游戏的实战经验，包括基本概念、Q学习原理、环境设置、模型选择与优化、图像预处理和调试过程。在训练中，通过调整动作间隔和环境长度，模型在游戏中的表现得到改善，但遇到极限上升障碍无法通过，可能受限于游戏环境。作者提出增加速度奖励以优化模型并解决‘手速’限制问题。

摘要由CSDN通过智能技术生成

7天的实战很快就过去了，在调参调到怀疑人生时，“标准答案”却出奇的简单，另外每次训练时间都非常长，要是有加快训练的方法就好了。最后有一个终极复现可以自由发挥，这就来实现曾经想玩的flappy bird。

这里是目录

原理
- 基本概念
- Q学习
环境
实现过程
总结与展望

原理

基本概念

强化学习是一种在与环境交互过程中学习的方法。

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
4
评论
强化学习七日打卡营终极复现之flappy bird

实战的7天很快就过去了，调参调到怀疑人生，“标准答案”却出奇的简单，大概是把问题想得太复杂了。恰好最后有一个终极复现可以自由发挥，这就来实现曾经想玩的flappy bird。这里是目录原理基本概念Q学习环境实现过程结论与展望致谢原理基本概念强化学习是一种在与环境交互过程中学习的方法。通过动作施加影响动作的收益反馈环境的变化智能主体环境比如在日常生活中，前方有一棵树(环境)人向前走了一步(动作)撞到了树(环境变化)并且觉得痛(收益)下次碰到树换个方向走(更新策略)强化学习的问题定义
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。