强化学习
文章平均质量分 93
kaohoooo
这个作者很懒,什么都没留下…
展开
-
论文学习|多智能体强化学习MAAC:基于attention的actor-critic类可扩展MADRL算法
MAAC是基于actor-critic的[learn to cooperate]类多智能体强化学习算法,算法结合了MADDPG、COMA、VDN以及attention机制。原创 2023-02-24 10:35:17 · 2380 阅读 · 0 评论 -
第三章 强化学习之Actor-Critic(演员-评论家)算法
演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法,其中,演员是指策略函数,即学习一个策略以得到尽可能高的回报。评论员是指价值函数,对当前策略的值函数进行估计,即评估演员的好坏。借助于价值函数,演员-评论员算法可以进行单步参数更新,不需要等到回合结束才进行更新。转载 2022-12-14 15:20:49 · 2788 阅读 · 0 评论 -
第二章 强化学习之马尔科夫决策过程
在介绍马尔可夫决策过程之前,我们先介绍它的简化版本:马尔可夫过程(Markov process,MP)以及马尔可夫奖励过程(Markov reward process,MRP)。通过与这两种过程的比较,我们可以更容易理解马尔可夫决策过程。其次,我们会介绍马尔可夫决策过程中的策略评估(policy evaluation),就是当给定决策后,我们怎么去计算它的价值函数。最后,我们会介绍马尔可夫决策过程的控制,具体有策略迭代(policy iteration)和价值迭代(value iteration)两种算法转载 2022-12-01 21:38:14 · 2058 阅读 · 0 评论 -
第一章 强化学习RL基础
强化学习(RL)是智能体在复杂、不确定环境下最大化获得奖励的过程。所以RL有两个必需的部分:智能体和环境,智能体处在与环境不断交互的过程中,智能体的目的就是从环境中获得更多的奖励。转载 2022-11-29 19:44:13 · 430 阅读 · 0 评论 -
一文搞定!!!多智能体强化学习的前世今生
最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码。原创 2022-10-21 14:41:58 · 952 阅读 · 0 评论