CCH陈常鸿Blog

走过来的不是人,是一个认知模式

强化学习-动态规划精简版

强化学习导论依然坚持在翻译,但工作量实在太大,先给出精简版。强化学习book资料下载链接:https://gitee.com/CCHChenChangHong/QiangHuaXueXi/attach_files动态规划(Dymamic Programming)以下简称DP。DP要求一个完全已知的...

2018-06-15 09:57:35

阅读数 609

评论数 0

用强化学习做井字棋

井字棋,英文名叫Tic-Tac-Toe,是一种在3*3格子上进行的连珠游戏,和五子棋类似,由于棋盘一般不画边框,格线排成井字故得名。游戏需要的工具仅为纸和笔,然后由分别代表O和X的两个游戏者轮流在格子里留下标记(一般来说先手者为X),任意三个标记形成一条直线,则为获胜 井字棋强化学习导论内容...

2018-01-21 21:14:54

阅读数 974

评论数 0

强化学习导论(3)有限马尔可夫决策过程

本章我们介绍有限马尔可夫决策过程(Finite MDPs),这个问题和赌博机一样涉及到评估的反馈,但这里还多了一个方面--在不同的情况作出不同的选择。MDPs是经典的序列判定决策模型,就是说,你不是作出一个选择就会马上获得reward,和赌博机不一样,赌博机你只要摇一次臂即可立刻获得reward,...

2017-12-31 10:24:10

阅读数 811

评论数 0

强化学习导论(2)多臂赌博机

本书的这一部分的第一章描述了强化学习问题的特例,其中只有一种状态,叫做老虎机问题。第二章描述了我们在整个有限马尔可夫决策过程中所讨论的一般问题的表述及其主要思想,包括贝尔曼方程和值函数。接下来的三章描述了求解有限马尔可夫的三类基本方法。决策问题:动态规划、蒙特卡罗方法和时间差分学习。每一类方法都有...

2017-12-30 18:01:41

阅读数 698

评论数 0

强化学习导论(1)帝王引擎的轰鸣声

之前写完机器学习一个介绍系列,准备开始学强化学习,然而尴尬的发现,市面上竟然没有强化学习的教程,我指的是强化学习的书籍,网上倒是有很多强化学习的算法,如K摇臂,Q-learning,sarsa,ppo等,但没有一个完整系统的教程,于是我打算把Reinforcement Learning:An In...

2017-12-28 16:39:53

阅读数 1001

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭