强化学习导论
文章平均质量分 88
软硬兼吃曹达华
像巫师那样到处航行
展开
-
强化学习导论(2)多臂赌博机
本书的这一部分的第一章描述了强化学习问题的特例,其中只有一种状态,叫做老虎机问题。第二章描述了我们在整个有限马尔可夫决策过程中所讨论的一般问题的表述及其主要思想,包括贝尔曼方程和值函数。接下来的三章描述了求解有限马尔可夫的三类基本方法。决策问题:动态规划、蒙特卡罗方法和时间差分学习。每一类方法都有其优点和缺点。动态规划方法在数学上有不错的发展,但需要一个完整和准确的环境模型。蒙特卡罗方法不需要模型原创 2017-12-30 18:01:41 · 1350 阅读 · 0 评论 -
强化学习导论(3)有限马尔可夫决策过程
本章我们介绍有限马尔可夫决策过程(Finite MDPs),这个问题和赌博机一样涉及到评估的反馈,但这里还多了一个方面--在不同的情况作出不同的选择。MDPs是经典的序列判定决策模型,就是说,你不是作出一个选择就会马上获得reward,和赌博机不一样,赌博机你只要摇一次臂即可立刻获得reward,而MDPs就像下象棋,你只有结束了对局你才会获得reward,但下象棋从开始到结束涉及到很多个行动,也原创 2017-12-31 10:24:10 · 1958 阅读 · 0 评论 -
用强化学习做井字棋
井字棋,英文名叫Tic-Tac-Toe,是一种在3*3格子上进行的连珠游戏,和五子棋类似,由于棋盘一般不画边框,格线排成井字故得名。游戏需要的工具仅为纸和笔,然后由分别代表O和X的两个游戏者轮流在格子里留下标记(一般来说先手者为X),任意三个标记形成一条直线,则为获胜井字棋强化学习导论内容请移步:http://blog.csdn.net/ilypl/article/details/7892原创 2018-01-21 21:14:54 · 2792 阅读 · 0 评论 -
强化学习导论(1)帝王引擎的轰鸣声
之前写完机器学习一个介绍系列,准备开始学强化学习,然而尴尬的发现,市面上竟然没有强化学习的教程,我指的是强化学习的书籍,网上倒是有很多强化学习的算法,如K摇臂,Q-learning,sarsa,ppo等,但没有一个完整系统的教程,于是我打算把Reinforcement Learning:An Introduction这本书翻译过来,一方面我学习需要,另一方面也希望能帮到别人,如果也有想翻译这本书的原创 2017-12-28 16:39:53 · 2281 阅读 · 0 评论 -
强化学习-动态规划精简版
强化学习导论依然坚持在翻译,但工作量实在太大,先给出精简版。强化学习book资料下载链接:https://gitee.com/CCHChenChangHong/QiangHuaXueXi/attach_files动态规划(Dymamic Programming)以下简称DP。DP要求一个完全已知的环境模型,MDP五元素全部知道。你不记得什么是MDP五元素?MDP五元素为S,A,P,R,gama,分...原创 2018-06-15 09:57:35 · 1441 阅读 · 0 评论