强化学习(原理+项目实战)大合集
文章平均质量分 90
强化学习单智能体、多智能体原理应用介绍以及码源项目实战,后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
汀、人工智能
本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!
展开
-
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等)、趣味项目实现、学术应用项目实现
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等)、趣味项目实现、学术应用项目实现原创 2023-06-02 11:51:14 · 2668 阅读 · 0 评论 -
强化学习中Ornstein-Uhlenbeck噪声什么使用最合理以及效果如何
强化学习中Ornstein-Uhlenbeck噪声什么使用最合理以及效果如何转载 2023-07-16 10:50:59 · 1408 阅读 · 1 评论 -
深度强化学习落地方法论训练篇:PPO、DQN、DDPG、学习率、折扣因子等
深度强化学习落地方法论训练篇:PPO、DQN、DDPG、学习率、折扣因子等转载 2023-07-15 10:04:44 · 3641 阅读 · 0 评论 -
深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3
深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3转载 2023-07-15 10:04:50 · 4398 阅读 · 0 评论 -
强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数
强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数转载 2023-07-15 10:04:57 · 5666 阅读 · 2 评论 -
深度强化学习:详解优化器加上REINFORCE算法迭代求解【组合优化】
深度强化学习:详解优化器加上REINFORCE算法迭代求解【组合优化】转载 2023-07-15 10:05:02 · 479 阅读 · 0 评论 -
深度强化学习库的设计思想带你深入了解DRL:从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价
深度强化学习库的设计思想带你深入了解DRL:从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价转载 2023-07-15 10:05:10 · 2593 阅读 · 0 评论 -
深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化,文本带你详解。
深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化,文本带你详解。转载 2023-07-15 10:05:37 · 1299 阅读 · 1 评论 -
深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等
深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等转载 2023-07-15 10:05:43 · 2602 阅读 · 0 评论 -
详解DDPG算法:解决对大量的超参数、随机重启、任务环境敏感问题,完成月球着陆器,双足机器人demo、以及超参数调优教学
详解DDPG算法:解决对大量的超参数、随机重启、任务环境敏感问题,完成月球着陆器,双足机器人demo、以及超参数调优教学转载 2023-07-15 10:05:50 · 4776 阅读 · 3 评论 -
强化学习算法TD3论文的翻译与解读:延迟学习、软更新、策略噪声、梯度截取
强化学习算法TD3论文的翻译与解读:延迟学习、软更新、策略噪声、梯度截取转载 2023-07-15 10:05:56 · 1610 阅读 · 0 评论 -
使用GPU进行大规模并行仿真,解决强化学习采样瓶颈:CPU、GPU架构以及原理详解
使用GPU进行大规模并行仿真,解决强化学习采样瓶颈:CPU、GPU架构以及原理详解原创 2023-07-14 15:46:38 · 1143 阅读 · 0 评论 -
用 GPU 并行环境 Isaac Gym + 强化学习库 ElegantRL:训练机器人Ant,3小时6000分,最高12000分
用 GPU 并行环境 Isaac Gym + 强化学习库 ElegantRL:训练机器人Ant,3小时6000分,最高12000分原创 2023-07-14 15:31:16 · 2409 阅读 · 0 评论 -
并行环境让采样速度快两个量级:Isaac Gym提速强化学习
并行环境让采样速度快两个量级:Isaac Gym提速强化学习原创 2023-07-14 15:26:57 · 522 阅读 · 0 评论 -
如何选择深度强化学习算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
如何选择深度强化学习算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法原创 2023-07-14 15:17:34 · 3045 阅读 · 0 评论 -
强化学习基础篇[3]:DQN、Actor-Critic详解
在之前的内容中,我们讲解了Q-learning和Sarsa算法。在这两个算法中,需要用一个Q表格来记录不同状态动作对应的价值,即一个大小为状态个数,动作个数[状态个数,动作个数]状态个数,动作个数的二维数组。在一些简单的强化学习环境中,比如迷宫游戏中(图1a),迷宫大小为4*4,因此该游戏存在16个state;而悬崖问题(图1b)的地图大小为 4*12,因此在该问题中状态数量为48,这些都属于数量较少的状态,所以可以用Q表格来记录对应的状态动作价值。原创 2023-06-03 20:47:52 · 836 阅读 · 0 评论 -
强化学习基础篇[2]:SARSA、Q-learning算法简介、应用举例、优缺点分析
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现对于深度强化学习这块规划为:本专栏主要方便入门同学快速掌握强化学习单智能体|多智能体算法原理+项目实战。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。声明:部分项目为原创 2023-06-02 12:49:54 · 947 阅读 · 0 评论 -
强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现对于深度强化学习这块规划为:本专栏主要方便入门同学快速掌握强化学习单智能体|多智能体算法原理+项目实战。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。声明:部分项目为原创 2023-06-02 12:46:10 · 907 阅读 · 0 评论 -
【三】补发一篇tensorflow下MADDPG环境搭建配置
相关文章:【一】MADDPG-单智能体|多智能体总结(理论、算法)【二】MADDPG多智能体算法实现(parl)【追逐游戏复现】之前用的都是paddle,现在补一下tf的。github上openAI已经给出了maddpg的环境配置https://github.com/openai/maddpg以及https://github.com/openai/multiagent-particle-envs,1.环境配置 首先确保gym的版本为0.10.5,tensorflow是1.x版本原创 2021-09-06 16:36:09 · 1470 阅读 · 3 评论 -
【二】MADDPG多智能体算法实现(parl)【追逐游戏复现】
论文全称:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments论文原文:https://download.csdn.net/download/sinat_39620217/16203960论文翻译:https://blog.csdn.net/qiusuoxiaozi/article/details/79066612...原创 2021-03-29 13:55:06 · 20143 阅读 · 104 评论 -
【一】MADDPG-单智能体|多智能体总结(理论、算法)
目录1.单智能体2.多智能体Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments1.单智能体连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。算法分类:强化学习中有很多算法来寻找最.原创 2021-03-08 16:08:10 · 6043 阅读 · 1 评论 -
【四】多智能体强化学习(MARL)近年研究概览 {Learning cooperation(协作学习)、Agents modeling agents(智能体建模)}
下面遵循综述Is multiagent deep reinforcement learning the answer or the question? A brief survey对多智能体强化学习算法的分类方法,将 MARL 算法分为以下四类:Analysis of emergent behaviors(行为分析) Learning communication(通信学习) Learning cooperation(协作学习) Agents modeling agents(智能体建模)下面我..原创 2021-07-21 21:30:15 · 2289 阅读 · 2 评论 -
【三】多智能体强化学习(MARL)近年研究概览 {Analysis of emergent behaviors(行为分析)_、Learning communication(通信学习)}
下面遵循综述Is multiagent deep reinforcement learning the answer or the question? A brief survey对多智能体强化学习算法的分类方法,将 MARL 算法分为以下四类:Analysis of emergent behaviors(行为分析) Learning communication(通信学习) Learning cooperation(协作学习) Agents modeling agents(智能体建模)下面我..原创 2021-07-21 20:59:17 · 2540 阅读 · 1 评论 -
【一】最新多智能体强化学习方法【总结】
1.连续动作状态空间算法1.1MADDPG1.1.1 简介Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments这是OpenAI团队和McGill大学、UC Berkeley于2017合作发表在NIPS(现在称NeurIPS)上,关于多智能体强化学习(Multi-agent reinforcement learning, MARL)特别经典的一篇文章。本文不仅给出了MADDPG (Multi-agent.原创 2021-07-21 10:39:23 · 6388 阅读 · 6 评论 -
【二】最新多智能体强化学习文章如何查阅{顶会:AAAI、 ICML }
1.中国计算机学会(CCF)推荐国际学术会议和期刊目录CCF官方网站CCF推荐国际学术会议(参考链接:链接点击查阅具体分类)类别如下计算机系统与高性能计算,计算机网络,网络与信息安全,软件工程,系统软件与程序设计语言,数据库、数据挖掘与内容检索,计算机科学理论,计算机图形学与多媒体,人工智能与模式识别,人机交互与普适计算,前沿、交叉与综合2021 ICML 多智能体强化学习论文整理汇总类别名称 数量 投稿量 5513 接收量 1184 强化学习方向文章原创 2021-07-21 17:09:05 · 2881 阅读 · 2 评论 -
多智能体强化学习算法【三】【QMIX、MADDPG、MAPPO】
相关文章:1.QMIX算法简述QMIX是一个多智能体强化学习算法,具有如下特点: 1. 学习得到分布式策略。 2. 本质是一个值函数逼近算法。 3. 由于对一个联合动作-状态只有一个总奖励值,而不是每个智能体得到一个自己的奖励值,因此只能用于合作环境,而不能用于竞争对抗环境。 4. QMIX算法采用集中式学习,分布式执行应用的框架。通过集中式的信息学习,得到每个智能体的分布式策略。 5. 训练时借用全局状态信息来提高算法效果。是后文提到的VDN方法的改进。 6. 接上一条,QMIX设计一个神经网络来原创 2021-06-09 09:07:41 · 4223 阅读 · 39 评论 -
多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】
一、引言本章介绍OpenAI 2017发表在NIPS 上的一篇文章,《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》。主要是将AC算法进行了一系列改进,使其能够适用于传统RL算法无法处理的复杂多智能体场景。传统RL算法面临的一个主要问题是由于每个智能体都是在不断学习改进其策略,因此从每一个智能体的角度看,环境是一个动态不稳定的,这不符合传统RL收敛条件。并且在一定程度上,无法通过仅仅改变智能体自身的策略原创 2021-06-07 09:04:16 · 4041 阅读 · 28 评论 -
多智能体强化学习算法【一】【MAPPO、MADDPG、QMIX】
近些年,多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中打败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统;以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法...原创 2021-06-05 14:31:27 · 7437 阅读 · 27 评论 -
【九】强化学习之TD3算法四轴飞行器仿真---PaddlePaddlle【PARL】框架
课程笔记【强化学习7日打卡营-7】最后一课码源链接:https://github.com/PaddlePaddle/RLSchool原创 2021-03-23 20:06:07 · 2567 阅读 · 9 评论 -
【八】强化学习之DDPG---PaddlePaddlle【PARL】框架{飞桨}
课程笔记【强化学习7日打卡营-7】原创 2021-03-22 16:22:29 · 1712 阅读 · 0 评论 -
【七】强化学习之Policy Gradient---PaddlePaddlle【PARL】框架{飞桨}
课程笔记【强化学习7日打卡营-6】待补充...原创 2021-03-21 11:44:47 · 782 阅读 · 0 评论 -
【六】强化学习之DQN---PaddlePaddlle【PARL】框架{飞桨}
目录课程笔记【强化学习7日打卡营-5】课程笔记【强化学习7日打卡营-5】原创 2021-03-18 21:15:32 · 1207 阅读 · 0 评论 -
【五】强化学习之Sarsa、Qlearing详细讲解----PaddlePaddlle【PARL】框架{飞桨}
课程笔记【强化学习7日打卡营-4】TD更新:会找到能获取reward最大的路径。对应数学公式:下一步Q值更新当前Q值。软更新方式,设置权重a每次更新一点点,类似学习率。这样最后Q值都会逼近目标值。1.Sarsa部分代码: 建立的Q表格初始化Q表格:四列n行提取出状态s的这一行,然后得到最大Q值的下标。当对应Q值存在多个动作时,避免每次都获取第一个动作,np.where从最大q值里随机挑选一个动作。对...原创 2021-03-18 14:14:17 · 983 阅读 · 0 评论 -
【四】-强化学习入门简介---PaddlePaddlle强化学习及PARL框架
课程笔记【强化学习7日打卡营-3】1.强化学习基础介绍1.1 强化学习与其他学习之间的关系:强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。 监督学习寻找输入到输出之间的映射,比如分类和回归问题。 非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。 强化学习则需要在与环境的交互中学习和寻找最佳决策方案。 监督学习处理认知问题,强化学习处理决策问题。监督学习是认知:学习到这个是什么,【样本独立的】强化学习是决策【样本之间有关系】强化学习...原创 2021-03-17 20:42:43 · 977 阅读 · 0 评论 -
【三】强化学习之PaddlePaddlle-Notebook、&pdb、ipdb 调试---及PARL框架
1.AI Studio基本操作-Notebook篇 --------云端运行程序当进入自己项目的详情页面时, 用户可以选择"运行"项目, 也就是准备项目环境.同样的, 当不想继续时, 可以此页面点击"停止"以终止项目.1.1 多代码编辑Notebook支持多文件编辑, 支持.py, .json, .txt, .log等格式的在线编辑, 支持部分图片类型文...原创 2021-03-16 17:06:57 · 931 阅读 · 3 评论 -
【二】强化学习之Parl基础命令--PaddlePaddlle及PARL框架{飞桨}
课程笔记【强化学习7日打卡营-2】翻译 2021-03-12 20:34:25 · 1604 阅读 · 0 评论 -
【一】飞桨paddle【GPU、CPU】安装以及环境配置+python入门教学
目录、【参考博客】1.PaddlePaddlle强化学习及PARL框架【参考博客】https://blog.csdn.net/qq_40089637/article/details/108315643?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.baidujs&dist_request_id=1328603.58385.16151899216504563&原创 2021-03-10 10:10:09 · 18676 阅读 · 12 评论 -
强化学习:python生成数据曲线平滑处理——(Savitzky-Golay 滤波器、convolve滑动平均滤波)方法介绍,推荐玩强化学习的小伙伴收藏
相关文章:Python xlwt数据保存到 Excel中以及xlrd读取excel文件画图先上效果图:由于高频某些点的波动导致高频曲线非常难看,为了降低噪声干扰,需要对曲线做平滑处理,让曲线过渡更平滑,可以看出经过平滑处理后更明显去除噪声且更加美观。1.滑动平均滤波滑动平均滤波法(又称:递推平均滤波法),它把连续取N个采样值看成一个队列 ,队列的长度固定为N ,每次采样到一个新数据放入队尾,并扔掉原来队首的一次数据(先进先出原则) 。把队列中的N个数据进行算术平均运算,就...原创 2021-08-12 15:39:00 · 5196 阅读 · 2 评论 -
python随机种子seed的作用(强化学习常用到)
python随机种子seed的作用(强化学习常用到)原创 2022-03-14 16:38:29 · 8280 阅读 · 0 评论 -
强化学习技巧五:numba提速python程序
numba是一款可以将python函数编译为机器代码的JIT编译器,经过numba编译的python代码(仅限数组运算),其运行速度可以接近C或FORTRAN语言。numba使用情况使用numpy数组做大量科学计算时 使用for循环时1.numba使用导入numpy、numba及其编译器import numpy as npimport numbafrom numba import jit传入numba装饰器jit,编写函数# 使用numba的情况@jit(nopyth原创 2021-07-10 14:35:23 · 1258 阅读 · 0 评论