论文阅读笔记_Melody1211的博客-CSDN博客

论文阅读笔记

关注

关注数：文章数：8 文章阅读量：10299 文章收藏量：32

作者: Melody1211

这个作者很懒，什么都没留下…

展开

Learning to Communicate with Deep Multi-Agent Reinforcement Learning笔记

1. 论文讲了什么/主要贡献是什么文章提出了通过深度学习的方法，对代理间的通信协议进行学习的思想。从而通过代理之间的通信解决多代理强化学习问题。2. 论文摘要：We consider the problem of multiple agents sensing and acting in environments with the goal of maximising their share...

原创 2020-04-01 22:49:22 · 663 阅读 · 1 评论
COMA: Counterfactual Multi-Agent Policy Gradients笔记

1. 论文讲了什么/主要贡献是什么文章介绍了COMA算法，主要解决了在集中训练、分散决策的框架中，全局全局奖励的分配问题。文中受到difference rewards的启发，采用了根据当前代理采取的动作相比于当前代理采取默认动作对全局奖励的提高来判断代理对全局奖励的贡献大小，从而对代理的actor进行有效的更新。并根据算法设计了能够有效估计优势函数的方式。2. 论文摘要：Cooperativ...

原创 2020-04-01 15:42:47 · 2141 阅读 · 0 评论
MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments笔记

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments1. 论文讲了什么在这篇文章中通过基于所有代理的观测和动作学习一个集中的critic，指导每个代理的actor进行更新的方式，将DDPG方法推广到了多代理强化学习环境中得到了MADDPG算法。主要创新点有（1）将其它代理的观测信息和决策信息用于集中cri...

原创 2020-03-30 12:17:21 · 924 阅读 · 0 评论
Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)笔记

Deep Recurrent Q-Learning for Partially Observable MDPs1. 论文讲了什么/主要贡献是什么传统DQN主要面型MDP的环境，在Atari环境中进行测试的过程中也是采取的输入多个帧的形式，使模型输入的观测能够体现出系统的状态。但现实中大部分都是部分可观测的情况——POMDP，本文在DQN的基础上，结合循环神经网络的特性，将LSTM与DQN结合，...

原创 2020-03-25 20:56:33 · 723 阅读 · 0 评论
Value-Decomposition Networks For Cooperative Multi-Agent Learning笔记

Value-Decomposition Networks For Cooperative Multi-Agent Learning1. 论文讲了什么/主要贡献是什么多代理强化学习任务的解决方案存在完全集中，和独立学习两种方案。将二者结合，得到了集中学习、分散决策的值分解网络，并利用已有技术如DQN架构、目标网络、经验回放、Dueling网络以及面向部分可观测环境下采用的RNN网络，设计出值分解...

原创 2020-03-25 15:23:13 · 2302 阅读 · 0 评论
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning笔记

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning1. 论文讲了什么/主要贡献是什么在多代理强化学习中，存在代理单独计算价值函数和完全集中计算价值函数两种方式，前者存在不稳定的问题，后者存在可扩展性差的问题（维度灾难）。作者在介于两者之前的VDN算法的基础上，对从单代理...

原创 2020-03-24 21:26:05 · 2276 阅读 · 0 评论
Putting An End to End-to-End: Gradient-Isolated Learning of Representations 笔记

Putting An End to End-to-End: Gradient-Isolated Learning of Representations1. 论文讲了什么/主要贡献是什么文章提出了Greedy InfoMax算法，该算法在贪婪自监督训练的情况下，仍能较好地完成音频和图像分类任务。神经网络能够进行异步、解耦训练，允许在大于内存的输入数据上对任意深度的网络进行训练。文...

原创 2020-03-18 18:46:57 · 719 阅读 · 0 评论
DDPG Continuous control with deep reinforcement learning笔记

Continuous control with deep reinforcement learning综述：1. 论文讲了什么/主要贡献是什么受到DQN算法的启发，将非线性函数逼近器用到了DPG算法中设计出DDPG算法，为了保证算法稳定性，将DQN中的两个核心思想：经验回放和目标网络加入到了DDPG算法中。这个算法中也有一些DDQN的思想。2. 论文摘要：We adapt the ide...

原创 2020-03-18 13:07:01 · 561 阅读 · 0 评论

论文阅读笔记

作者: Melody1211

Learning to Communicate with Deep Multi-Agent Reinforcement Learning笔记

COMA: Counterfactual Multi-Agent Policy Gradients笔记

MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments笔记

Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)笔记

Value-Decomposition Networks For Cooperative Multi-Agent Learning笔记

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning笔记

Putting An End to End-to-End: Gradient-Isolated Learning of Representations 笔记

DDPG Continuous control with deep reinforcement learning笔记