Reinforcement Learning
文章平均质量分 94
枇杷鹭
留下学习的痕迹。
展开
-
1.5万字详述 | 全开源:python写小游戏+AI强化学习与传统DFS/BFS控制分别实现
我以我在 GitHub 上开源的项目 PiperLiu / Amazing-Brick-DFS-and-DRL 为对象,从零开始与各位朋友分享:如何用 python 写一个小游戏 、 如何匹配传统的深度优先搜索算法来控制 、 如何匹配传统的广度优先搜索算法来控制 、 如何匹配深度强化学习算法来控制 、 强化学习的优势在哪里 。无论你是零基础还是有项目经验,我都希望能给你带来收获。原创 2020-11-10 15:42:01 · 2742 阅读 · 5 评论 -
强化学习离轨策略:从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义
本文我们就以“追女孩”为例,讨论离轨策略,进而引申出“重要度采样比”/“采样率”的数学意义解释(主要引用台湾大学李宏毅老师的观点)。原创 2020-11-03 15:51:34 · 1091 阅读 · 6 评论 -
“强化学习说白了,是建立分布到分布之间的映射”?数学角度谈谈个人观点
“强化学习说白了,是建立分布到分布之间的映射。” 我从没有听过别人提这样的观点,这让我静下心来,去再次思考强化学习的数学假设。 我将在此对这个观点进行分析。原创 2020-10-27 16:55:01 · 1203 阅读 · 0 评论 -
论文趣读:人工智能里程碑?回顾2015年登上Nature的DQN(全文翻译+批注)
读一读学术论文~原创 2020-10-19 23:14:00 · 2845 阅读 · 0 评论 -
无需公式或代码,用生活实例谈谈 AI 自动控制技术“强化学习”算法框架
有人说,强化学习是一种“试错”技术,是在状态与动作间建立了一种高级的“哈希映射”。学习强化学习半载,我个人的心得是:强化学习让实时决策不再“鼠目寸光”,本文我们就通过“小赛能否写完假期作业”这个生活实例来谈谈。原创 2020-05-07 16:13:53 · 2290 阅读 · 1 评论 -
【python实战】使用 pygame 写一个 flappy-bird 类小游戏 | 涉及思路+项目结构+代码详解 | 新手向
本项目总共花费了我两天时间(2020.5.2-2020.5.4),本项目包括:基于 pygame 的 amazing-brick 游戏复现,可以在电脑端手动玩此小游戏;基于 广度优先搜索算法(BFS, Breadth-First-Search) 的自动游戏机制;基于 宽度优先搜索算法(DFS, Depth-First-Search) 的自动游戏机制;基于 清华开源强化学习库 tianshou 的 DQN 算法,以强化学习的方式在游戏中实现自动控制。原创 2020-05-04 23:19:20 · 2343 阅读 · 0 评论 -
《强化学习》中的第15章:神经科学
本次笔记对《强化学习(第二版)》第十五章进行概括性描述。原创 2020-04-12 19:27:33 · 442 阅读 · 0 评论 -
《强化学习》中的第14章:心理学
本次笔记对《强化学习(第二版)》第十四章进行概括性描述。原创 2020-04-12 12:26:42 · 629 阅读 · 0 评论 -
什么样的 python 可以可谓专业 PyPI 项目?刚刚学到三个概念:pep8、Sphinx、pytest与GitHub Action的集成
最近在读很火的 tianshou (基于 pytorch 提供深度强化学习算法的简易接口),两个清华本科生做的。很规范、很优秀的项目。 做出来的项目,想要让别人使用、维护、建立良性可持续社区,项目结构清晰、写注释、生成文档是必不可少的。 我在 GitHub 上 watch 了该项目,现在项目文档工作正如火如荼,我的邮件提示也常常响起:“你看看,人家清华巨佬们今天又在努力工作学习,刚刚又提交了一个 commit ,而你写的幼儿园级别算法甚至都不收敛至最优解!”原创 2020-04-06 00:24:31 · 426 阅读 · 0 评论 -
【开发随笔】以强化学习环境 gym 库为例:为什么日常中我应该试图标准化接口?
这两天在看 openai 的 gym ,并尝试用其测试自己写的 Sarsa 。一塌糊涂,这里来记录下经验教训。官网对于 gym 的文档不多,也不详细,读了 gym 的源码,很直观,也确实用不着什么官方文档。强化学习与传统的“监督学习”、“非监督学习”不同,强化学习要时刻与环境/模型交互,以传输数据。这就不能简单地将数据输入,而要整理算法与数据的接口,将二者连接起来。原创 2020-04-04 23:32:31 · 527 阅读 · 0 评论 -
《强化学习》中的第13章:策略梯度方法
终于学完了前13章!第13章在我看来有些突兀:其利用了3-12章我们讨论的思想,但却抛弃了我们讨论了整整长达10章的q(s,a)相关方法。不管怎么说,我终于可以进入工程部分,开始领教 DRL 了。小小白同学要变成小白同学了。原创 2020-03-22 00:48:53 · 1042 阅读 · 0 评论 -
《强化学习》中的第12章:资格迹
第12章我依旧有很多地方不懂、不透,这里,我只尽力将自己所理解的知识体系串讲下来,并且我在文末给出自己的疑问与猜测的答案/解决方案。因为还有很多东西要学要做,因此第一遍学习不求很透彻,重视工程能力而非理论能力。原创 2020-03-20 00:18:10 · 1154 阅读 · 5 评论 -
《强化学习》中的第11章:基于函数逼近的离轨策略方法
总的来说,第11章学习体验不好。可能是由于内容本身比较抽象,第11章属于星标章节。练习题没有引起我的兴趣。还有一点比较令人失望:尽管本章讨论了不少更新目标与算法(其中很多为反例),并给出了大量带有矩阵的计算公式,但实例并不多。因此,我认为理解其大概思想便可。原创 2020-03-15 16:39:50 · 1344 阅读 · 0 评论 -
《强化学习》中的第10章:基于函数逼近的同轨策略控制
本次笔记对《强化学习(第二版)》第十章进行概括性描述。原创 2020-03-11 22:33:44 · 1037 阅读 · 0 评论 -
《强化学习》中的第9章:基于函数逼近的同轨策略预测
本次笔记对《强化学习(第二版)》第九章进行概括性描述。原创 2020-03-09 00:11:44 · 1305 阅读 · 0 评论 -
用“小红的下任男友是谁”通俗解释强化学习中的 基于模型方法 与 免模型方法
之前纠结了很久 Model-based 与 Model-free 。突然想出来的一个点子,觉得蛮有意思、蛮直观的,便写下来,希望能帮到和我一样的初学者。原创 2020-02-25 14:35:10 · 520 阅读 · 1 评论 -
【强化学习】表格型求解方法总结:基于表格型方法(Tabular Methods)的规划(Planning)和学习(Learning)
本次笔记对《强化学习(第二版)》第八章进行概括性描述。同时,也对本书的第一部分(共三部分)表格型求解方法进行了系统性阐述。原创 2020-01-31 23:39:02 · 1756 阅读 · 0 评论 -
n步自举法:时序差分方法与蒙特卡洛方法的结合
前言: 之前讨论了(1步)时序差分方法(CSDN链接)与蒙特卡洛方法(CSDN链接)。刚刚学习完 Sutton 的《强化学习(第二版)》的第七章:n步自举法。它是时序差分方法与蒙特卡洛方法的折中,一般地,效果要好于二者。本次笔记不记录公式、算法框架,介绍思想。具体内容请见中文电子书:第7章 n 步引导(Bootstrapping)方法文章目录n步自举法与时序差分方法、蒙特卡洛方法同轨策...原创 2020-01-28 23:47:58 · 1416 阅读 · 0 评论 -
《强化学习》中的时序差分控制:Sarsa、Q-learning、期望Sarsa、双Q学习 etc.
学习了 Sutton 的《强化学习(第二版)》第6章时序差分学习的控制部分,将笔记提炼如下:Sarsa、Q-learning、期望Sarsa、双 Q 学习。原创 2020-01-22 23:47:34 · 1863 阅读 · 0 评论 -
《强化学习》中的 时序差分学习 Temporal-Difference Learning (基于与动态规划 DP 、蒙特卡洛方法 MC 的对比)
学习了 Sutton 的《强化学习(第二版)》中时序差分学习的“预测”部分内容。前两章中,书介绍了 动态规划 与 蒙特卡洛方法 ,我们从二者与 时序差分学习 的对比开始讲起。原创 2020-01-19 00:47:37 · 1461 阅读 · 0 评论 -
心得&复述知识体系:《强化学习》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning
刚刚读完 Sutton 的《强化学习(第二版)》第5章:蒙特卡洛方法。为了巩固本章收获,笔者将在本文中用尽量简单直白的语言复述本章的思想,各个知识点之间的关系。同时,这方便笔者日后进行复习,也与他人分享了心得。原创 2020-01-18 00:29:10 · 1497 阅读 · 0 评论 -
强化学习 / 动态规划:策略改进(Policy Improvement)使策略更优的数学证明
反证法证明了,基于贪心算法的策略改进是“有效的”。原创 2020-01-16 08:24:50 · 2327 阅读 · 0 评论 -
强化学习/动态规划:贝尔曼方程的解读 Bellman Equation & 贝尔曼方程组 / 贝尔曼最优方程
读书《Reinforcement Learning: An Introduction Second Edition》,读到第三章有限马尔科夫决策过程MDP中,提到了贝尔曼方程的理解。一开始我是有点懵逼的,现在看懂了其意思,在这里解释一下。原创 2020-01-11 12:13:49 · 6245 阅读 · 5 评论 -
【强化学习入门】梯度赌博机算法中,偏好函数更新:梯度上升公式是精确梯度上升的随机近似的证明
本文证明强化学习入门问题:K摇臂赌博机的梯度赌博机算法中,偏好函数更新公式:$H_{t+1}(A_t) = H_t(A_t) + \alpha (R_t - \overline{R_t})(1-\pi_t(A_t))$的合理性。书上可能有些不太好理解,我用较为浅显的语言将每步证明的“why & how”描述出来。原创 2019-12-13 21:13:50 · 991 阅读 · 1 评论