爱宇小菜涛-CSDN博客

原创 A3C框架

基于AC框架的算法很难收敛，因此可以采用DQN的经验回放的方法降低数据间的相关性，基于这种思想A3C算法采用异步的思想降低数据间的差异性，具体做法：在多个线程里与环境进行交互，将每个线程内的交互的经验收集起来，共同保存，指导所有智能体与环境进行交互。，优势函数其实就是将Q值归一化到Value baseline上，包括全局的网络架构和n个worker线程，

2024-03-02 09:37:42 894

原创 10MARL深度强化学习 Value Decomposition in Common-Reward Games

中心化价值函数能够缓解一些多智能体强化学习当中的问题，如非平稳性、局部可观测、信用分配与均衡选择等问题，然而存在很难直接学习价值函数等问题，特别是动作价值函数难以学习，原因是联合动作空间随智能体个数呈指数增长的问题，因此本文章学习如何有效的学习价值函数且最大化共同和奖励过程。

2024-02-22 00:03:01 945

原创 09MARL深度强化学习policy gradient

MARL将CTDE框架应用到AC算法当中

2024-02-20 21:32:15 879

原创 08MARL深度强化学习 independent learning

记录independent learning算法的基础概念，使用一些RL算法训练多智能体。

2024-02-19 20:55:12 932

原创 08MARL深度强化学习——模型种类

本文总结了MARL算法当中的三个基本框架：中心化训练与执行、去中心化训练与执行、中心化训练分散执行

2024-02-16 16:28:31 1064

原创 07MARL经典算法 Policy-Based Learning

MARL基础算法第三类基于策略的学习。

2024-02-15 11:33:30 841 1

原创 06MARL经典算法基于agent modelling

agent modelling方法

2024-02-15 10:29:48 860 1

原创 05MARL经典算法基于联合动作价值函数

记录MARL基础算法中的JAL-GT算法

2024-02-01 21:21:16 1184 1

原创 04MARL - priori kownledge and challenge

此篇笔记记录了MRAL一般训练流程中的成分以及目前的挑战和模型的类型等。

2024-01-30 16:48:23 921 1

原创 03MARL-联合策略与期望回报

多智能体强化学习问题中的博弈论知识——联合策略与期望回报。

2024-01-10 14:51:57 1091

原创 01多智能体交互模型：标准博弈与随机博弈

多智能体强化学习——标准博弈与随机博弈过程

2024-01-10 00:06:38 1535

原创 01强化学习基础以及马尔可夫决策过程

记录一些强化学习的基础概念以及马尔可夫决策过程的基础概念。

2023-12-28 00:12:34 863 1

原创策略梯度方法

策略梯度学习，介绍基于价值与基于策略的RL，如何基于策略梯度进行优化，包括AC框架的介绍。策略梯度算法是基于策略的方法，其对策略进行了参数化。假设参数为θ\thetaθ的策略为πθ\pi_\thetaπθ，该策略为随机性策略，其输入某个状态，输出一个动作的概率分布。策略梯度算法不需要在动作空间中最大化价值，因此较为适合解决具有高维或者连续动作空间的问题。

2023-12-27 17:14:58 1219 1

原创价值函数近似-prediction\control（DQN）

价值函数近似相关内容学习，预测与控制，包括DQN网络的原理。

2023-12-27 00:32:43 959 1

原创 model free TD-control（Sarsa、Q-learning）

RL学习、基于TD的方法求解最优策略，包括Sarsa与Q-learning针对TD与DP进行比较，sarsa相当于采用贝尔曼期望方程进行迭代，而Q-learning采用贝尔曼最优方程进行迭代。

2023-12-25 16:12:18 975

原创 model free Monte Carlo-control

RL入门学习，MC迭代优化策略，得到最优策略采用on-policy MC方法进行策略优化。

2023-12-25 15:19:03 888

原创 model free Temporal-Difference Learning-prediction

RL学习——时序差分（TD）

2023-12-24 23:22:17 942 1

原创 model-free：Monte Carlo Methods-prediction

RL学习笔记——蒙特卡洛算法。

2023-12-24 18:35:10 978 1

原创马尔科夫决策过程-策略迭代与值迭代(基于动态规划)

强化学习入门笔记，基于easy RL提示：以下是本篇文章正文内容，下面案例可供参考。

2023-12-24 00:28:57 1580 1

原创 Distributed Heuristic Multi-Agent Path Finding with Communication

应用RL在局部可观察的环境下学习去中心化的策略是近几年的方法，在拥堵的情况下学习到避免碰撞的策略是一大挑战。本文提出了一种结合通信与DQN的路径规划算法，agent之间通过图卷积实现协作。同时嵌入潜在的选择单源的最短路径作为启发式的指导，单独的训练每个智能体，将训练好的策略应用到每个智能体当中分散执行。

2023-12-18 23:38:49 1114 1

多智能体路径规划（multi-agent path finding，MAPF）是为多个智能体规划路径的问题，关键约束是多个智能体同时沿着规划路径行进而不会发生冲突按照规划方式不同：MAPF算法分为集中式规划算法和分布式规划算法，集中式规划算法是最经典和最常用的MAPF算法，主要分为基于A*搜索、基于冲突搜索、基于代价增长树和基于规约四种算法；分布式执行算法分为专家演讲型，改进通信型和任务分解型三种算法虽然经典的集中式规划算法是目前最常用的也是效率最高的算法。基于多智能体深度强化学习的分布式执行算法在。

2023-11-10 23:24:52 7809 1

m0_66988867的博客

原创 RNN、LSTM、GRU、Transformer