失忆星辰-CSDN博客

原创快速上手PettingZoo——多智能体环境PettingZoo与单智能体环境Gym的区别解读

可以看出，PettingZoo的Parallel形式和Gym更加类似，需要注意reset(),step()方法返回的都是所有智能体的字典形式step()方法要求输入的也是所有智能体actions的字典形式，所有要注意用for循环访问env.agents获取动作字典对于AEC形式，要利用agent_iter指向当前智能体和last方法reset(),step()方法没有返回值使用last()方法获取当前智能体各种信息。

2023-12-20 14:17:02 1597 1

原创 TRPO（Trust Region Policy Optimization）原理讲解

TRPO（Trust Region Policy Optimization）解决了A-C框架中更新梯度步长大小的问题，采用一种相对保守的策略更新梯度，引入信任区域和KL散度约束，使得每次更新幅度受限制，主要是TRPO能找到一个好的步长α来更新参数θθα∇θJθ，除此之外，TRPO还加入了重要性采样IS和广义优势估计GAE还保证提高了样本的利用率。此时TRPO已经不严格满足on-policy算法，是一种近似算法了。下面讲解我们推导TRPO的过程。

2023-12-15 22:04:54 1145

原创 Actor-Critic及Advantage Actor-Critic(A2C)原理及实战讲解

本文将从REINFORCE算法的缺点入手，引入Actor-Critic网络的改进，并给出A2C的细节和实现代码。总的来说，Actor-Critic同时吸收了value-based和policy-based下的优点，不过本质上还是从policy-based开始改进的，这一系列算法的目标都是优化策略网络参数，只是引入了学习价值函数的网络帮助策略评估。

2023-12-15 13:14:09 1892 2

原创策略梯度与REINFORCE算法——policy-based的开始

本文将从策略梯度开始介绍,理解策略梯度原理的基础上讲解REINFORCE算法并分析代码，总结其优缺点。

2023-12-14 19:10:51 889

原创【离线学习(Offline Learning)算法TD3-BC论文理解:A Minimalist Approach to Offline Reinforcement Learning

标题：A Minimalist Approach to Offline Reinforcement Learning链接：https://arxiv.org/pdf/2106.06860.pdf发表于： NeurIPS 2021源码仓库:https://github.com/sfujim/TD3_BC相关领域：强化学习深度学习离线学习策略优化[TOC]

2023-12-08 15:42:20 1113

原创论文理解 A Survey on Trajectory-Prediction Methods for Autonomous Driving

轨迹预测综述论文理解

2023-03-03 20:01:31 1628 2

M3197783956的博客

原创快速上手PettingZoo——多智能体环境PettingZoo与单智能体环境Gym的区别解读

原创 TRPO（Trust Region Policy Optimization）原理讲解

原创 Actor-Critic及Advantage Actor-Critic(A2C)原理及实战讲解

原创策略梯度与REINFORCE算法——policy-based的开始

原创【离线学习(Offline Learning)算法TD3-BC论文理解:A Minimalist Approach to Offline Reinforcement Learning

原创论文理解 A Survey on Trajectory-Prediction Methods for Autonomous Driving

空空如也

空空如也

原创 快速上手PettingZoo——多智能体环境PettingZoo与单智能体环境Gym的区别解读

原创 TRPO（Trust Region Policy Optimization）原理讲解

原创 Actor-Critic及Advantage Actor-Critic(A2C)原理及实战讲解

原创 策略梯度与REINFORCE算法——policy-based的开始

原创 【离线学习(Offline Learning)算法TD3-BC论文理解:A Minimalist Approach to Offline Reinforcement Learning

原创 论文理解 A Survey on Trajectory-Prediction Methods for Autonomous Driving

空空如也

空空如也

原创快速上手PettingZoo——多智能体环境PettingZoo与单智能体环境Gym的区别解读

原创策略梯度与REINFORCE算法——policy-based的开始

原创【离线学习(Offline Learning)算法TD3-BC论文理解:A Minimalist Approach to Offline Reinforcement Learning

原创论文理解 A Survey on Trajectory-Prediction Methods for Autonomous Driving