Q-learning through Flappy Bird

最新推荐文章于 2023-03-22 01:27:44 发布

穆穆不惊左右

最新推荐文章于 2023-03-22 01:27:44 发布

阅读量1.4k

点赞数 1

分类专栏：毕设

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pihe7623/article/details/80234263

版权

这篇博客通过Q-learning让小鸟在游戏中学习飞行策略。状态包括小鸟与管道的水平和垂直距离；动作为向上飞或不做动作；奖赏机制包括生存奖励、死亡惩罚和通过水管的额外奖励。Q表用于评估不同状态下动作的优劣，训练采用ε-greedy策略，结合学习速率和折扣因子调整学习过程。文章还解释了Q-learning的训练公式和γ的影响。

摘要由CSDN通过智能技术生成

学习https://www.zhihu.com/search?type=content&q=Q-learning的笔记

让小鸟学习怎么飞是一个强化学习的过程，强化学习中有状态动作奖赏三个要素，智能体根据状态采取动作，获得奖赏后再去改进这些动作，使下次再到相同的状态，智能体能做出更优的动作。

状态的选择

小鸟到下一根下侧管子的水平距离和垂直距离差

（图片来自原项目）

动作的选择

1 向上飞一下 2 什么都不做

奖赏的选择

活着的时候每一帧给予1，死亡，给予-1000 成功经过一个水管，则给予50

关于Q

Q是动作效用函数，用于评价在特定状态下每个状态的优劣。可以看作智能体的大脑，把Q当做一张表，每一行是一个状态（dx，dy），每一列表示一个动作飞与不飞（共两列）

例如：

m*n 行表示m*n个状态，每个状态所对应的动作都有一个效用值，训练之后小鸟再某处飞与不飞的决策就

最低0.47元/天解锁文章

穆穆不惊左右

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

穆穆不惊左右 CSDN认证博客专家 CSDN认证企业博客

码龄8年

97: 原创

14万+: 周排名

105万+: 总排名

4万+: 访问

: 等级

1336: 积分

23: 粉丝

8: 获赞

8: 评论

80: 收藏

私信

关注

热门文章

分类专栏

PAT 72篇
蓝桥 2篇
PPT
spring 1篇
python 5篇
项目 1篇
android 1篇
aliyun 1篇
泰迪杯 1篇
毕设 2篇
强化学习 1篇
Linux
C/C++ 6篇
opencv 1篇
Apollo 4篇
算法 3篇
arcgis 1篇

最新评论

1015. 德才论
七月，羽落: 大佬牛掰
A1051 Pop Sequence
Champhoenix: 不错
gym 倒立摆学习
Wincher_Fan: 老师，想问一下这里什么意思，为什么要这么写？万分感谢 if 'running_reward' not in globals(): running_reward = ep_rs_sum else: running_reward = running_reward * 0.99 + ep_rs_sum * 0.01
[PAT A1025] PAT Ranking
傅里叶不想变换_: 很详细，谢谢大佬嗷
【codeup 1928】日期差值
SShirleyy: 你好，请问你的代码通过了吗，我把你的试了一试和我之前代码一样也是错误50%

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。