addiction z-CSDN博客

原创 MARL笔记4-FACMAC

论文链接，发在2021NIPS上。

2024-04-08 20:02:37 477

找到xuance库的examples文件夹，找到qmix，想跑环境的yaml里改参数，parallel是并行环境数量，内存大的可以多设，不然设成2到4就好不然容易爆内存。Qmix假设如果每个智能体都选择使得自己个体Q最大的动作，那么这些动作的组合将会是使得整个系统的Qtot最大的动作组合。自上而下为3m环境下训练0step，50000step，100000step的表现，可以看到经过训练，友军已经可以在无伤亡的情况下击败敌军了。算权重的时候的第二层加了一个ReLU函数，把定义域为负的部分修正了。

2024-03-28 23:21:17 587

原创 MARL笔记2-VDN

（某些智能体不采取任何行动或者只执行最小必要的任务，发生在当一个智能体发现它无论如何行动，都可以从其他更活跃或更高效的智能体的努力中获益。因为它鼓励所有智能体都参与到学习和决策过程中，如果某些智能体很懒惰，在交换标识符后它无法胜任其他智能体的任务，意味着它可能是懒惰智能体。右边是本文的值分解个体架构，每个智能体也有自己的局部观察输入和网络，与左图不同的是，这些网络的输出会被结合起来，共同。，等同于一个中心决策者通过最大化所有智能体的价值之和来选择联合行动，但每个智能体又拥有自己独特的Q函数，

2024-03-26 11:59:54 930

原创 MARL笔记1-MADDPG

其他智能体的行为变化导致环境对于任一智能体来说都是，即环境的动态性不仅来自环境本身的变化，还来自其他智能体策略的变化。：在多智能体环境中，一个智能体可能无法完全观察到环境的全部状态，包括其他智能体的私有信息和意图。这导致学习过程中存在不确定性，增加了决策的复杂度。：当多个智能体共同作用于环境并共享奖励时，确定每个智能体对共同结果贡献的程度（即信用分配）变得挑战，特别是在合作任务中。这个也会造成虚假奖励：对其中一个智能体来说，其获得的团队奖励很有可能是其队友的行为导致的。

2024-03-26 11:59:28 1187

原创综述论文阅读：Bridging Evolutionary Algorithms andReinforcement Learning: A Comprehensive Survey（ERL综述）

RL:探索是和的，但。EA:探索是，但却是冗余的，，特别是在高维问题中,且很难从经验中学习，严重。

2024-03-10 16:33:10 1091

原创科研工具：实验结果实时可视化，自动调参工具-wandb

wandb是tensorboard plus版，它有几个优点：1.代码量少，几行代码就能把你想记录的各个实验数据全部变成图表形式2.只要代码在跑，不管你在哪。登录网站就能看到实时更新的实验结果3.自动调参。可以自己设定想调的参数范围，内置搜索方法可以帮你找到优秀的解。而且支持多进程，很多机器一起跑，效率拉满。

2024-02-27 17:14:31 1228

原创强化学习笔记4——TRPO，PPO

假设我们想要计算一个复杂分布 P下某个函数f(x)的期望值。这个分布 P 很复杂，直接从中采样非常困难。为了解决这个问题，可以使用重要性采样。: 我们选择一个更简单的分布 Q，从这个分布中采样相对容易。例如，如果 P 是一个复杂的多峰分布，我们可以选择一个简单的高斯分布作为 Q。: 假设我们从 Q 中随机抽取了一系列样本 x1,x2,...,xn。: 对于每个样本 xi，我们计算重要性权重 wi=Q(xi)/P(xi)。这个权重衡量了在两个分布之间转换样本的比例。

2024-02-22 18:40:16 1079 1

原创强化学习笔记3——DDPG,TD3

我们知道DQN的网络输出一个动作数量大小的向量，其中每个分量代表那个动作的q值。但是连续动作空间的动作数量是，这样的表示将不能再用。为了能适配连续动作空间所以DDPG将选择动作的过程变成一个直接从状态映射到具体动作的函数 μθ(s)，其中 θ 表示模型的参数，这样一来就把求解 Q 函数、贪心选择动作这两个过程合并成了一个函数。这个平面的每个点代表一个状态动作对的价值，actor的任务就是固定了某个动作s，需要在a和Q(s，a)这个函数曲线上找到能取最大Q的动作a。

2024-01-30 11:20:41 2046 4

原创论文研读：2024 ICLR SAMPLE-EFFICIENT QUALITY-DIVERSITYBY COOPERATIVE COEVOLUTION

优化在工程中非常有用，可以用来设计机械零件、控制机器人等。但实际问题通常很复杂，不容易用简单的方法解决。通常需要多次调整参数和成本函数，然后反复运行优化算法，直到找到一个满意的解决方案。而且，即使找到了解决方案，它通常也不是最终的最佳解决方案。在实际应用中，优化主要用于设计初期，用来探索不同的选择和权衡。因此，需要一些算法，它们更像是探索工具，而不仅仅是寻找最优解的工具。质量-多样性（QD）优化算法就是这样一种算法：它们不是寻找一个最优解，而是提供了很多高性能的解决方案。

2024-01-28 17:30:48 1342

原创强化学习笔记2——策略梯度算法，A2C,A3C

1.无法表示连续动作，DQN需要对某个状态下的每个动作打分，因此它们只能处理离散动作空间的问题，无法表示连续动作空间的问题。2.高方差：基于价值的方法通常都是通过采样的方式来估计价值函数，这样会导致估计的方差很高，从而影响算法的收敛性。3.探索与利用的平衡问题。虽然可以通过 ϵ-greedy 策略等方式来实现一定程度的随机策略，但是实际上这种方式并不是很理想，因为它并不能很好地平衡探索与利用的关系。

2024-01-24 17:27:38 1311

原创强化学习笔记1——DQN实现CartPole小游戏（代码分析）

state:状态观测值有四个，就是小车的位置，即小车的位置，速度，倾斜角度和角度的变化速度。当位置和角度倾斜超出范围，则环境终止。这里返回一个{ndarray{4，}}的类型，分别代表小车的位置，速度，角度，和角度变化率。action：环境的动作是一维的，能取两个值0和1。取0代表把小车往左移动，取1代表把小车往右边移动。env.step(action)表示执行动作，函数会返回下一个状态st+1，奖励值reward，以及环境终止符done。

2024-01-22 14:59:06 2589 2

原创论文研读：2018Proximal Distilled Evolutionary Reinforcement Learning

Khadka和Tumer(2018)首次在机器人运动任务中展示这两种方法并合并到ERL框架，但并没有解决GAs的可伸缩性问题scalability problem，虽然RL agent的梯度信息可以显著加快进化速度，但ERL的进化基于传统变异算子traditional variation operators，和直接编码的dnn配对，这些算子是破坏性的destructive。还有许多令人兴奋的方向。红色等高线图展示了子女和父母之间的差异，通过近端突变获得的策略的行为是对亲本行为的一个小的扰动调整。

2023-11-22 16:54:51 114

qq_48342932的博客