学习https://www.zhihu.com/search?type=content&q=Q-learning的笔记
让小鸟学习怎么飞是一个强化学习的过程,强化学习中有状态 动作 奖赏三个要素,智能体根据状态采取动作,获得奖赏后再去改进这些动作,使下次再到相同的状态,智能体能做出更优的动作。
状态的选择
小鸟到下一根下侧管子的水平距离和垂直距离差
(图片来自原项目)
动作的选择
1 向上飞一下 2 什么都不做
奖赏的选择
活着的时候 每一帧给予1,死亡,给予-1000 成功经过一个水管,则给予50
关于Q
Q是动作效用函数,用于评价在特定状态下每个状态的优劣。可以看作智能体的大脑,把Q当做一张表,每一行是一个状态(dx,dy),每一列表示一个动作 飞与不飞(共两列)
例如:
m*n 行 表示m*n个状态,每个状态所对应的动作都有一个效用值,训练之后小鸟再某处飞与不飞的决策就