毕设
文章平均质量分 76
穆穆不惊左右
这个作者很懒,什么都没留下…
展开
-
MIT s069课程学习笔记 01 强化学习到深度强化学习
强化学习到深度强化学习部分内容转载自知乎黄伟亮 https://zhuanlan.zhihu.com/p/35688924强化学习的理论框架——马科夫决策过程(MDP)强化学习,本质上是让计算机学会自主决策的方法论。而马可夫决策过程(Markov decision process, MDP)则是强化学习中,对现实问题进行建模的数学模型,它把所有的现实问题都抽象为:智能体与环境的互动过程;在互动过程...原创 2018-05-07 11:44:38 · 945 阅读 · 0 评论 -
Q-learning through Flappy Bird
学习https://www.zhihu.com/search?type=content&q=Q-learning的笔记 让小鸟学习怎么飞是一个强化学习的过程,强化学习中有状态 动作 奖赏三个要素,智能体根据状态采取动作,获得奖赏后再去改进这些动作,使下次再到相同的状态,智能体能做出更优的动作。状态的选择小鸟到下一根下侧管子的水平距离和垂直距离差(图片来自原项目)动作的选择1 向上飞一下 2...原创 2018-05-08 09:20:12 · 1447 阅读 · 0 评论