
深度强化学习极简入门与Pytorch实战
文章平均质量分 96
内容:
-强化学习理论基础:Tabular RL。
-基于价值的方法:DQN及其变种、DDPG、TD3。
-基于策略的方法:REINFORCE、PPO。
代码:
-所有算法都有配套的源代码以及详细注释。
如需答疑请在评论区留言、私信、或者发邮件到fengxiaolei_nj 163.com。
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
二向箔不会思考
本AI正在冥想中~
展开
-
RL进阶(一):变分推断、生成模型、SAC
形式上,隐变量既不是直接获取的证据变量,也不是所关心的目标变量,但是有助于建立证据变量和目标变量之间的联系。比如上面的图片中有三堆相对集中的数据,实际上数据并不包含颜色信息,但是一看这张图片我们可能就会使用一个多元正态分布去拟合这些数据。这里面的隐变量实际上是一个离散的类别变量。这里体现了一种强大的计算方式,即用简单分布分乘积的积分表示以一个非常复杂的积分。,那么什么样的分布最可能产生这样的数据?的数据,我们可能会使用像多元高斯这样的概率模型去拟合这些数据。出现的概率,比如强化学习中的策略函数。原创 2024-09-25 10:57:03 · 101 阅读 · 0 评论 -
DRL经典文献阅读(二):确定性策略梯度(DPG+DDPG)【附代码】
在强化学习这一领域中,智能体的策略可以分为两类,即随机策略πθ(a∣s)=P[a∣s;θ],表示在状态sss下根据参数θ\thetaθ随机的概率选择动作aaa;确定性动作a=μθ(s)a=μθ(s),该策略在状态sss下根据参数θ\thetaθ确定性地给出唯一动作aaa。原创 2022-11-15 22:48:21 · 699 阅读 · 0 评论 -
DRL经典文献阅读(一):策略梯度理论(Policy Gradient, PG)
将强化学习目标函数记为ρ\rhoρ,策略的参数记为θ\thetaθ。在策略梯度中,策略的参数通过梯度提升方式进行更新,更新部分与梯度成成比:∇θ≈α∂ρ∂θ(1)\nabla\theta\approx \alpha\frac{\partial\rho}{\partial\theta}\tag{1}∇θ≈α∂θ∂ρ(1)智能体的目标函数,常用的定义方式有两种。第一种是多步取均值的方式ρ(π)=limn→∞1nE{r1+r2+⋯+rn∣π}=∑sdπ(s)∑aπ(s,a)Rsa(2)\rho(\pi原创 2022-10-17 19:15:32 · 708 阅读 · 0 评论 -
DRL应用实战(三)——AI奥林匹克·相扑RL智能体高分方案【附代码】
在训练的过程中,会将阶段性的表现较好的RL智能体本身加入到对手池中,让智能体与自己的历史版本进行对抗学习,这一点借鉴了self-play。RL算法为PPO,动作为连续动作(force、angle),神经网络为2层的MLP,每层128个神经元,使用tanh激活,详细情况请参考后面给出的代码链接。有谁如果有兴趣可以使用官方给出的基于原始像素的RL去训练,看看能不能战胜我在代码里面给出的几个比较强一点的RL智能体(这里几个智能体都是使用最强的rule-based智能体训练出来的)。原因太多,每次的验证太费时间。原创 2022-10-16 16:51:43 · 764 阅读 · 0 评论 -
DRL应用实战(二)——“AI奥林匹克”RL智能体获奖方案【代码下载链接见文末】
【引言】是骡子是马,拉出来遛遛。报名参加了中国科学院自动化研究所举办的“奥林匹克 综合”的人工智能比赛。这是一个侧重于强化学习智能体开发的比赛。相比于机器学习比赛,强化学习智能体开发赛最近一两年才出现。上个月参加了一次,拿了前五。现在再次参加一个更有挑战的RL比赛,练练手,本文就作为参赛记录吧。——2022.05.16文章目录中英文术语对照表1 赛题1.1 比赛背景1.2 比赛科目1.3 参赛方式1.4 参赛步骤1.5 奖项设置1.6 赛程安排1.7 具体赛程1.8 参赛资料2 比赛记录2.1 热.原创 2022-05-16 21:09:31 · 1469 阅读 · 12 评论 -
DRL应用实战(一)——开发德州扑克RL智能体【附代码】
背景:德扑智能体比赛:http://www.jidiai.cn/compete_detail?compete=20,奖金1w。特点:自己开发的智能体能够在线和别人的智能体对战。1 pettingzoo德州扑克-无限制版 游戏规则观测空间:一个54维的向量,每一维取值为0或1,1表示出现,0表示没出现。索引含义取值0~12黑桃A~K[0,1]13~25黑桃A~K[0,1]26~38黑桃A~K[0,1]39~51玩家1所有下注[0,1].原创 2022-05-30 11:24:36 · 814 阅读 · 1 评论 -
DRL基础(十二)——近端策略优化算法PPO【附代码】
2016年10月OpenAI公司发布了《Dota2》强化学习游戏智能体OpenAI Five,并且经过多年的开发训练后战胜了当时的世界冠军团队OG,技术细节可以看发表的论文。OpenAI Five的核心算法是PPO,一种称为近端策略优化的算法,属于策略梯度算法的一种。OpenAI Five和PPO的成功大大增加了AI研究者对强化学习解决复杂问题的信心,PPO也成为使用强化学习解决各类问题的一个基准算法。PPO属于策略梯度算法,即通过求解强化学习问题中目标函数的梯度,利用梯度提升的方法训练强化学习智能体。这原创 2022-09-14 22:28:06 · 1842 阅读 · 0 评论 -
DRL基础(十一)——策略梯度方法REINFORCE【附代码】
讲解策略梯度基本理论讲解REINFORCE算法基本原理基于Pytorch实现REINFORCE算法原创 2022-09-05 09:38:29 · 1334 阅读 · 0 评论 -
DRL基础(十)——深度Q网络 (DQN)完全教程【附代码】
讲解DQN基本理论,基于Pytorch实现DQN算法,开发智能体控制月球车着陆,DQN完整代码下载链接见文末原创 2022-06-07 16:49:53 · 1237 阅读 · 0 评论 -
DRL基础(九)——深度学习基础:神经网络基础知识与Pytorch实战一篇全讲清楚
【引言】上一篇文章介绍了深度许学习中的梯度优化相关理论及Python实现。但是什么样的函数拟合能力强,还能很容易求解它的梯度呢?那便是神经网络了。介绍神经网络的资料应该是相当丰富了,这里力求以 必要最小 的原则进行介绍,希望读者能够通过本文以及接下来两篇文章掌握深度强化学习所需的深度学习必要知识。 本文介绍神经网络基础知识:全连接神经网络、Pytorch深度学习框架、神经网络的训练和调优等。保持以往文章的风格,本文将给出代码。中英文术语对照表中文英文缩写或符号人工神经.原创 2022-05-25 15:07:30 · 599 阅读 · 2 评论 -
DRL基础(八)——深度学习基础:梯度下降及Python实现
【引言】上一篇文章总结了表格型强化学习的主要内容,从这篇文章开始将介绍深度学习相关内容。先从数值优化开始吧,因为不管看起来多么高端的神经网络模型,最终都需要通过数值优化这个工具去训练。本质上还是在寻找极值、可行解等。文章目录中英文术语对照表1 函数拟合1.1 损失函数2 梯度优化2.1 损失函数的梯度计算2.2 利用梯度寻找函数的极值3 实验验证中英文术语对照表中文英文缩写或符号优化optimization-梯度gradient∇\nabla∇梯度下.原创 2022-05-17 19:05:08 · 784 阅读 · 0 评论 -
DRL基础(七)——小结:表格型强化学习
为学日益,为道日损。——《老子》第四十八章不知不觉已经将强化学习中的表格型方法主要内容写完了。这可是走过了RL发展的好几十年的历史呢!老子说,为学日益,为道日损。知识应当多多益善,但是如何从形式上的知识转化为自己真正认同的道呢?{}介绍了强化学习发展历史,强化学习问题的形式化描述(马尔可夫决策过程、贝尔曼方程)、蒙特卡洛思想和算法、记忆时间差分思想和算法,还通过编程实现了相关算法并解决OpenAI Gym中的一些棋牌游戏和路径规划问题。内容汇总如下:深度强化学习极简入门(一)——强化学习发展历史简.原创 2022-05-14 23:56:16 · 322 阅读 · 0 评论 -
DRL基础(六)——强化学习中的时间差分方法(Sarsa、Q-learning)
【引言】上一篇文章介绍了表格型强化学习中的蒙特卡洛方法及其实现。这篇文章将介绍强化学习中的一类重要思想——时间差分(Temporal difference, TD)思想,以及该思想衍生出的两个重要算法:SarsaQ-learning了解原理后将实现这两个算法,并且在“悬崖行走”环境中对算法进行测试。文章目录中英文术语对照表1 强化学习中的时间差分算法1.1 Sarsa算法1.1.1 原理介绍1.1.2 算法伪代码1.2 Q-learning算法1.2.1 原理介绍1.2.2 算法伪代码2 .原创 2022-05-12 21:28:07 · 652 阅读 · 4 评论 -
DRL基础(五)——强化学习中的蒙特卡洛方法
【引言】前面利用马尔可夫决策过程这一数学工具对强化学习进行了形式化描述,并给出了强化学习智能体的目标函数。那么如何找到最优策略来最大化目标函数?最优策略存在吗?是唯一的吗?在回答这些问题之前,先考虑一下问题想细致一点。首先,状态是智能体决策的依据,状态是连续的还是离散的?可不可以一一枚举出来?其次,智能体的动作是连续的还是离散的?可不可以很方便地列出来?假设状态和动作都是离散的并且能够方便地列出来,这样问题就变得好处理一些了,因为可以使用一张表格,将不同状态下的不同动作所对应的未来收益记录下.原创 2022-05-02 11:39:47 · 2426 阅读 · 0 评论 -
DRL基础(四)——编程:python与numpy基础
【摘要】人生苦短,我用Python!现代深度强化学习,包括多智能体强化学习,研究者大多使用Python进行试验验证。主要的原因就是Python语言较为贴近自然语言,入门容易,具有各种方便好用的功能包。研究者可以快速开发出各种应用环境验证强化学习算法,实现研究论证与论文发表。本文包含以下内容:Python语言介绍、数据类型、语法、数据结构,类。Numpy的使用:基于Python的数学运算包,是Tenorflow和Pytorch的基础。文章目录1 Python介绍2 基本python语法2.1 .原创 2022-05-02 09:11:57 · 1207 阅读 · 0 评论 -
DRL基础(三)——价值函数与贝尔曼方程
【引言】上一篇文章利用马尔可夫决策过程这一数学工具对强化学习进行了形式化描述,并给出了强化学习智能体的目标函数。那么如何找到最优策略来最大化目标函数?最优策略存在吗?是唯一的吗?在回答这些问题之前,先引入价值函数和贝尔曼方程这两个工具对强化学习进行更加具体的过程性描述。在此基础上,介绍最优价值函数和最优策略等概念。目录中英文术语对照表1. 价值函数1.1 状态价值函数1.2 动作价值和函数2. 贝尔曼方程2.1 基于状态价值函数的贝尔曼方程2.2 用vπ(s)v_\pi(s)vπ(s)表示qπ(s.原创 2022-04-25 23:12:11 · 1673 阅读 · 0 评论 -
DRL基础(二)——使用马尔可夫决策过程(MDP)描述强化学习
强化学习技术历经几十年的发展,理论严谨,应用广泛;而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史,这篇博客将介绍一个用于描述强化学习过程的强有力的工具——马尔可夫决策过程。原创 2022-04-17 01:04:09 · 3581 阅读 · 0 评论 -
DRL基础(一)——强化学习发展历史简述
【摘要】这篇博客简要介绍强化学习发展历史:起源、发展、主要流派、以及应用举例。强化学习理论和技术很早就被提出和研究了,属于人工智能三大流派中的行为主义。强化学习一度成为着人工智能研究的主流,最近十年多年随着以深度学习为基础的联结主义的兴起,强化学习在感知和表达能力上得到了巨大提升,在解决某些领域的问题中达到或者超过了人类水平:在围棋领域,基于强化学习和蒙特卡洛树搜索的AlphaGo打败了世界顶级专业棋手;在视频游戏领域,基于深度强化学习的游戏智能体在29款Atari游戏中超过人类平均水平;在即时战略游戏领.原创 2022-04-16 23:46:12 · 12005 阅读 · 1 评论 -
RL综述(一):强化学习综述(Kaelbling、Littman等1996)
作者:Michael L. Littman等摘要这篇文章从计算机科学的角度对强化学习这一领域进行了研究,并且尽量写的让熟悉机器学习的相关研究者能够较为容易的读懂。我们研究了强化学习这一领域历史上的基础,也广泛总结了当今研究的主流选择。强化学习是关于智能体通过与动态环境进行不断交互,从而在“尝试-错误”过程中学习正确行为的问题。这篇文章与心理学上的研究有一定的关系,但更值得注意的是,这里的强...翻译 2018-07-14 22:09:18 · 13546 阅读 · 5 评论