![](https://img-blog.csdnimg.cn/47c4bb0d00534e03a08e39d1184a3b1a.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
RL-based文献阅读
文章平均质量分 85
经典文献分享
普通攻击往后拉
Intelligent decision-making for scheduling and planning problems
展开
-
[经典论文分享] AWAC: Accelerating Online Reinforcement Learning with Offline Datasets
1 背景在参加了一次论坛之后,偶然听到了关于离线深度强化学习的一个算法叫AWAC。AWAC提出的初衷是为了让深度强化学习能够像BERT那样,实现离线预训练在线调整,从而提高强化学习算法本身的训练效率。然而,由于离线数据集与在线交互获得的数据集之间存在着分布偏差(Distribution Shift),使得离线训练的智能体策略并不能直接在线调整。为了解决这个问题,本文作者提出了AWAC (advantaged weighted actor critic)算法,使得深度强化学习模型能够像BERT一样预训练后再原创 2022-05-06 21:28:41 · 1181 阅读 · 1 评论 -
[经典论文分享] Decision Transformer: Reinforcement Learning via Sequence Modeling
1 背景无聊时看群聊发现在半年前2021年7月左右新出了一个方法,叫做decision transformer。一直以来都是对attention机制大家族保持着崇高的敬意,于是找到了这篇文章看了一下。看完之后感觉并不是很惊喜,也可能是期待太高。文章核心做的工作是给出了一种新的深度强化学习训练模式,使得能够更加‘端对端’地去用transformer大家族去拟合和训练。截止2022年1月22日,这篇文章在谷歌学术上有了50次引用(半年多)。论文原文:Decision Transformer: Reinfor原创 2022-01-21 20:30:42 · 4762 阅读 · 1 评论 -
[经典论文分享] Attention, Learn to Solve Routing Problems!
1 背景自从有人基于指针网络解决组合优化问题以来,基于ML的组合优化问题求解模型逐渐被关注。基于深度强化学习的组合优化求解带来了较高的模型准确度和泛化性。但是目前基于DRL的CO求解准确度和训练效率一般,简单来说就是模型不是很成熟。针对模型的表现性能和训练效率,同时本着万物皆可基于transformer进行改进的思想,本文提出了一种面向VRP系列组合优化问题的改进的‘transformer’,作者称其为’Attention Model’。到现在2021年10月,这篇文章已经在谷歌学术上有了325次的引用。原创 2021-10-24 17:11:22 · 3143 阅读 · 7 评论 -
[经典论文分享] Reinforcement Learning for Solving the Vehicle Routing Problem
1 背景针对组合优化问题,早在2016年就有论文提出了指针网络(pointer network)来解决TSP问题,并使用强化学习进行训练,取得了一定的效果。而直接基于指针网络解决VRP问题则存在一些弊端:1)难以解决解决动态VRP的问题,因为整个VRP问题结局过程中,各个消费者的需求会随着车辆的运输而不断被解决,使得输出过程是动态的。2)指针网络只适用于TSP问题以及背包问题等简单的问题,而对于复杂的CO问题适应性较差。3)指针网络的运算复杂度较高,并且其在encoder部分的RNN结构难以实现输入序列的原创 2021-10-22 21:17:02 · 2573 阅读 · 3 评论 -
英文写作需要注意的中文习惯
1 时刻注意冠词中文没有加冠词的习惯,吃鸭子不会说吃一个鸭子,但是英文对于冠词的把控是非常严格的,实际上外国人需要时常通过冠词来判断说话人表达的意思。1)没有冠词:两种情况,一种是真的不需要冠词,一般指那种大家都知道的东西,比如人工智能AI,可以直接说AI,不用加the AI,或者是之前你提出了一个框架或者方法,比如叫做Father-Son Network(FSN),那么后文也可以直接说FSN…不需要说the FSN…另一种情况就是写错了,成了sloppy english.2) 不定冠词a和定冠词原创 2021-06-01 15:42:51 · 451 阅读 · 0 评论 -
[经典论文分享]QMIX: 基于值学习的多智能体强化学习协作算法
1 背景在多智能体强化学习中有两个重要的问题,一是如何学习联合动作值函数,因为该函数的参数会随着智能体数量的增多而成指数增长;二就是学习到了联合动作值函数后,如何提取出一个合适的分布式的策略。这两个问题导致单智能体强化学习算法,如Q-learning,难以直接应用到多智能体系统中。Rashid提出了QMIX多智能体算法,基于Q-learning和VDN的启发,从上述两个问题角度提升marl算法的准确度。论文原文:QMIX: Monotonic Value Function Factorisation f原创 2021-02-14 10:35:47 · 5012 阅读 · 3 评论 -
[经典论文分享]SchedNet:带宽限制下的多智能体通讯调度网络
1 背景普遍认为,交流可以进一步提高学习者在尝试完成合作任务时的集体智力,许多论文已经研究了在强化学习中多个代理之间使用的通信协议和语言的学习。但是agent之间的交互是有成本的,不是随便就能交互的,并且存在带宽的限制。此外,agent之间的交互是通过某种一致的媒介进行的,意味着同一时间只会有几个智能体同时进行交互,因此需要对整个mas进行调度。Kim等人提出了一种SchedNet,用于解决在上述背景下的agent间的调度行为。论文原文:LEARNING TO SCHEDULE COMMUNICATIO原创 2021-01-23 10:57:09 · 817 阅读 · 1 评论 -
[经典论文分享]CommNet 多智能体通讯网络模型
1 背景多智能体系统(MAS)在解决复杂问题中具有重要地位,然而大多数的MAS内部agent的通讯都是通过定义实现的,即if-else的规则集,这样不仅对于不同的MAS要重新定义,而且也难以获得最优的通讯定义方式。利用“万物皆可"one layer”的思想,Sainbayar Sukhbaatar提出了针对完全合作任务的CommNet网络,实现了通过训练的方式进行定义agent间的通讯过程。论文原文:Learning Multiagent Communication with Backpropagati原创 2021-01-19 11:04:02 · 3084 阅读 · 0 评论