Q-learning through Flappy Bird

这篇博客通过Q-learning让小鸟在游戏中学习飞行策略。状态包括小鸟与管道的水平和垂直距离;动作为向上飞或不做动作;奖赏机制包括生存奖励、死亡惩罚和通过水管的额外奖励。Q表用于评估不同状态下动作的优劣,训练采用ε-greedy策略,结合学习速率和折扣因子调整学习过程。文章还解释了Q-learning的训练公式和γ的影响。
摘要由CSDN通过智能技术生成

学习https://www.zhihu.com/search?type=content&q=Q-learning的笔记 

让小鸟学习怎么飞是一个强化学习的过程,强化学习中有状态 动作 奖赏三个要素,智能体根据状态采取动作,获得奖赏后再去改进这些动作,使下次再到相同的状态,智能体能做出更优的动作。


状态的选择

小鸟到下一根下侧管子的水平距离和垂直距离差


(图片来自原项目)

动作的选择

1 向上飞一下 2 什么都不做


奖赏的选择

活着的时候 每一帧给予1,死亡,给予-1000 成功经过一个水管,则给予50


关于Q

Q是动作效用函数,用于评价在特定状态下每个状态的优劣。可以看作智能体的大脑,把Q当做一张表,每一行是一个状态(dx,dy),每一列表示一个动作 飞与不飞(共两列)

例如:



m*n 行 表示m*n个状态,每个状态所对应的动作都有一个效用值,训练之后小鸟再某处飞与不飞的决策就

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值