自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 快速上手PettingZoo——多智能体环境PettingZoo与单智能体环境Gym的区别解读

可以看出,PettingZoo的Parallel形式和Gym更加类似,需要注意reset(),step()方法返回的都是所有智能体的字典形式step()方法要求输入的也是所有智能体actions的字典形式,所有要注意用for循环访问env.agents获取动作字典对于AEC形式,要利用agent_iter指向当前智能体和last方法reset(),step()方法没有返回值使用last()方法获取当前智能体各种信息。

2023-12-20 14:17:02 1597 1

原创 TRPO(Trust Region Policy Optimization)原理讲解

TRPO(Trust Region Policy Optimization)解决了A-C框架中更新梯度步长大小的问题,采用一种相对保守的策略更新梯度,引入信任区域和KL散度约束,使得每次更新幅度受限制,主要是TRPO能找到一个好的步长α来更新参数θθα∇θ​Jθ,除此之外,TRPO还加入了重要性采样IS和广义优势估计GAE还保证提高了样本的利用率。此时TRPO已经不严格满足on-policy算法,是一种近似算法了。下面讲解我们推导TRPO的过程。

2023-12-15 22:04:54 1145

原创 Actor-Critic及Advantage Actor-Critic(A2C)原理及实战讲解

本文将从REINFORCE算法的缺点入手,引入Actor-Critic网络的改进,并给出A2C的细节和实现代码。总的来说,Actor-Critic同时吸收了value-based和policy-based下的优点,不过本质上还是从policy-based开始改进的,这一系列算法的目标都是优化策略网络参数,只是引入了学习价值函数的网络帮助策略评估。

2023-12-15 13:14:09 1892 2

原创 策略梯度与REINFORCE算法——policy-based的开始

本文将从策略梯度开始介绍,理解策略梯度原理的基础上讲解REINFORCE算法并分析代码,总结其优缺点。

2023-12-14 19:10:51 889

原创 【离线学习(Offline Learning)算法TD3-BC论文理解:A Minimalist Approach to Offline Reinforcement Learning

标题:A Minimalist Approach to Offline Reinforcement Learning链接:https://arxiv.org/pdf/2106.06860.pdf发表于: NeurIPS 2021源码仓库:https://github.com/sfujim/TD3_BC相关领域:强化学习 深度学习 离线学习 策略优化[TOC]

2023-12-08 15:42:20 1113

原创 论文理解 A Survey on Trajectory-Prediction Methods for Autonomous Driving

轨迹预测综述论文理解

2023-03-03 20:01:31 1628 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除