诺诺

小酒窝日常

Q-learning through Flappy Bird

学习https://www.zhihu.com/search?type=content&q=Q-learning的笔记 让小鸟学习怎么飞是一个强化学习的过程,强化学习中有状态 动作 奖赏三个要素,智能体根据状态采取动作,获得奖赏后再去改进这些动作,使下次再到相同的状态,智能...

2018-05-08 09:20:12

阅读数:156

评论数:0

MIT s069课程学习笔记 01 强化学习到深度强化学习

强化学习到深度强化学习部分内容转载自知乎黄伟亮 https://zhuanlan.zhihu.com/p/35688924强化学习的理论框架——马科夫决策过程(MDP)强化学习,本质上是让计算机学会自主决策的方法论。而马可夫决策过程(Markov decision process, MDP)则是强...

2018-05-07 11:44:38

阅读数:161

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭