强化学习之路
记录自己学习强化学习之路
wdlovecjy
这个作者很懒,什么都没留下…
展开
-
SAC算法笔记
原创 2022-05-04 16:00:10 · 396 阅读 · 0 评论 -
DDPG算法
强化学习 DDPG算法原创 2022-05-03 21:06:06 · 216 阅读 · 0 评论 -
PG公式推导
强化学习 policy gradient原创 2022-05-03 15:07:17 · 244 阅读 · 0 评论 -
TRPO公式推导
原创 2022-04-15 13:37:11 · 383 阅读 · 0 评论 -
【强化学习】不基于模型的预测
【强化学习】不基于模型的预测通过先前的讲解,我们明白了如何从理论上解决一个已知的MDP:通过动态规划来评估一个给定的策略,并且得到最优价值函数,根据最优价值函数来确定最优策略;也可以直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。本节讨论的是被认为是MDP,但是却不掌握MDP细节的问题(在我看来就是MDP之间状态转移概率不知道),也就是讲述如何直接从Agent与环境的交互来得得到一个估计的最优价值函数和最优策略。本讲的内容,聚焦于策略评估,也就是预测,直白地说就是在给定的策略同时不清楚M原创 2021-12-01 20:55:13 · 376 阅读 · 0 评论 -
2021-11-29 强化学习第三天
学了三节强化学习视频课,对其中的一些概念和公式以及方法掌握还是不太熟悉,想着停下来看一看书籍以及各路大神对前面的理解,所以本篇就是记录自己再看书籍以及资料时觉得重要的东西。以便自己在忘记的时候进行反思学习。本篇所看书籍是强化学习导论以及易强化学习两本书籍。强化学习两个特征 - 试错法和延迟奖励 - 是强化学习的两个最重要的可区别特征。与监督学习和无监督学习的不同:监督学习从有标记的训练集中学习,而强化学习从自己的经验中学习;无监督学习主要是学习未标记数据集中的数据分布,虽然个体的经验数据中揭示数据分原创 2021-11-29 20:45:18 · 697 阅读 · 0 评论 -
11.25学习强化学习第三天——动态规划寻找最优策略
强化学习之路2(动态规划寻找最优策略)本文还是借鉴知乎大神叶强的文章,如有侵权,会删除,本文只是自己得到的一点思考。简介动态规划算法是解决复杂问题的一个方法,算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。当问题具有下列特性时,通常可以考虑使用动态规划来求解:第一个特性是一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解;子问题在复杂问题内重复出现,使得子问题的解可以被存储原创 2021-11-25 23:30:56 · 593 阅读 · 0 评论 -
11.23 学习强化学习第二天——马尔科夫
强化学习之路1(马尔科夫)前两天认真思考了自己的研究方向,自己导师一直让我阅读论文自己找一个方向,自己硕士期间是做深度学习相关的,但是博导不怎么做相关的领域,并觉得深度相关的知识在我们领域只是应用,其创新点很难支撑一个博士毕业,所以自己也是看了几十篇论文,实在是找不到太好的方向。自己实验室有人做强化学习相关的,老师也给我提过,是一个比较热,比价有潜力的方向,所以自己就在知乎上查询该如何入门强化学习,搜到了David Silver主讲的一套强化学习视频公开课,较为系统、全面地介绍了强化学习的各种思想、实现算原创 2021-11-23 17:44:26 · 608 阅读 · 0 评论