#David Silver
涛涛北京
结构建设
展开
-
【强化学习公式理解】
看了视频后,发现对RL的理解浮于表面,很多问题想不明白,所以停下来整理下公式,加深对理论的理解程度再继续推进。第三章Return在一次实验中,时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . .,片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1):这个地方最后一个状态是否一定是终结状态呢?这个我现在也不知...原创 2020-04-01 23:09:13 · 1597 阅读 · 0 评论 -
【David Silver-强化学习笔记】p2、马尔科夫模型
2.1 马尔科夫过程Markov decision process 是用来对环境建模的模型,这个环境是fully observable的,即便是partially observable也可以转化为MDP。所以在强化学习领域,几乎所有的问题都可以转化为MDP模型。2.1.1 Markov property2.1.2 State Transition Matrix假如agent有不同的状态,...原创 2020-02-25 21:28:15 · 860 阅读 · 2 评论 -
【David Silver-强化学习笔记】p1、Introduction
占位符原创 2020-02-21 11:40:25 · 693 阅读 · 0 评论