强化学习
Love_marginal
这个作者很懒,什么都没留下…
展开
-
A Survey on Multi-Agent Reinforcement Learning Methods for Vehicular Networks
摘要在物联网(IoT)的飞速发展下,车辆可以被视为移动的智能体,它们可以进行通信,合作以及竞争资源和信息。 车辆需要学习策略并做出决策,以提高多智能体系统(MAS)应对不断变化的环境的能力。多智能体强化学习(MARL)被认为是在高度动态的车载MAS中寻找可靠解的学习框架之一。 在本文中,我们对与车辆网络相关的研究问题进行了调查,例如资源分配,数据卸载,缓存放置,超可靠的低延迟通信(URLLC)和高移动性管理。此外,我们展示了MARL的潜在应用,该技术可在车辆万物互联(V2X)场景中实现分布式和可扩展的决原创 2020-11-28 00:55:27 · 933 阅读 · 1 评论 -
[多智能体强化学习] 王树森YouTube课程笔记
前言近期在设计V2X资源分配任务下的状态空间和动作空间,可以说是一筹莫展,是自己菜,现在看来可能也是涉及到一些关于多智能体强化学习实现过程中过于细节的点,目前的知识储备还不够。因此打算用半周到一周的时间重电,希望之后能有进展。本文内容来自于友人LX所推荐的油管教程,链接如下:多智能体强化学习,一共两节课40min左右。教程废话不多干货不少,老师的声音还好听,推荐直接去看原教程。这里还要多一嘴,那就是对于强化学习来说,单主体和多主体的界限,在某种程度上来说是很模糊的,并不是场景中有多个主体需要..原创 2020-11-25 21:42:07 · 3005 阅读 · 7 评论 -
[强化学习] 我的场景中有多个主体,那是不是就一定要用多智能体强化学习?
我的场景中有多个主体,那是不是就一定要用多主体强化学习?sarl:Single Agent Reinforcement Learning, 单主体强化学习marl:Multi Agent Reinforcement Learning, 多主体强化学习先上结论:不是,使用 sarl 可以解决你所说的 “场景中存在多个主体” 的问题。示例空口无凭,下面用我一个场景来举例子说明此问题:考虑车联网的场景,有多个车,多个信道,多个车同时发送信息。我们的目标就是决定每个车使用哪个信.原创 2020-11-14 13:35:15 · 1101 阅读 · 0 评论 -
[强化学习] V2X 场景下 Agent 的构建
0.前言本文自用,整理RL中各要素的实现方式及承载函数。最终目的是清楚RL都需要哪些功能,端到端的算法要如何搭建,这些功能应放在哪个模块(函数)中实现目前我能想到的RL功能为:从 env 中获取 state ok 激活 NN 获取 action ok 根据 action、env 更新 NN 补1:由当前状态 s_t 和 action ,获取下一时刻的状态 s_(t+1) 补2:将上一状态、当前状态、奖励、动作存buffer ok 补3:从buffer中采样并更新DQN参数 ok原创 2020-11-03 19:24:05 · 2074 阅读 · 4 评论 -
【文献阅读03】Deep Reinforcement Learning Based Resource Allocation for V2V Communications
Deep Reinforcement Learning Based Resource Allocation for V2V Communications(点击可见原文)p.s.此文19年发表,到20年8月被引199次论文要解决的问题单播和广播场景下,考虑V2V通信的资源分配,使用分布式方案,在无 global information 的前提下为 V2V链路 or 车辆 找到最优的子带和功率等级,该算法能满足V2V链路的延迟约束并最小化对 V2I 的干扰。使用深度强化学习解决,已开源并有哥们写原创 2020-08-26 14:32:56 · 4199 阅读 · 6 评论 -
【文献阅读02】Reinforcement Learning based Control of Imitative Policies for Near-Accident Driving
Reinforcement Learning based Control of Imitative Policies for Near-Accident Driving(点击可见原文)论文要解决的问题道路安全相关的高危场景中,根据场景中的细微变化,可能需要动作准则发生较大的改变。快速的动作准则的变更可能需要另一个准则来对其进行处理。因此,设置两种不同的驾驶模式(不同的驾驶模式体现对于效率和安全性的不同权衡),将模式之间的转移作为优化的目标,由RL学习;模式内的具体行车动作由IL学习。.原创 2020-07-09 16:13:48 · 693 阅读 · 0 评论 -
[论文笔记]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems
序这是一篇来自IEEE ACCESS的paper(影响因子19年3.745),18年4月发表,到本博客的时间点被引了18次,值得一提的或许是这文的一作是一个IEEE的Fellow YANG YANG。摘要覆盖范围和系统容量的折衷及联合优化在大规模MIMO无线系统中是重要且有挑战性的。本文提出的方法名为GAUSS(Group Alignment of User Signal Strength),用来支持大规模MIMO系统的用户调度,为优化覆盖范围和系统容量(CCO, Coverage and原创 2020-07-03 16:41:26 · 1069 阅读 · 1 评论 -
[转载]Reinforcement Learning:Sarsa和Q-learning
Sarsa算法Sarsa的算法如下:Sarsa算法是on-policy方法,其原始策略和更新策略是一致的,而其更新策略和MC不一样的是其策略更新不需要采样一个完整的轨迹,在执行完一个动作后就可以更新其值函数。Q-learning算法Q-learning算法则是一个off-policy的方法,其原始策略和值函数更新策略不一致,同样的也不需要进行采样一个轨迹进行策略更新,和Sarsa算法不一样的是,Q-learning在更新值函数的时候使用的是贪心策略,而不是ϵϵ-greedy策略。..转载 2020-07-01 11:05:34 · 425 阅读 · 0 评论 -
[转载]李宏毅RL网课笔记
李宏毅深度强化学习课程https://www.bilibili.com/video/av24724071李宏毅深度强化学习笔记(一)Outline概述强化学习,及policy-based、value-based的方法李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)episide、trajectory等术语,policy gradient的原理,on-policy和off-policyimportant sampling,PPO算法李宏毅深度.转载 2020-06-29 20:56:52 · 517 阅读 · 0 评论 -
[环境配置]给远端服务器配置tensorflow环境
前情提要个人需要跑一个基于Tensorflow的py代码,之前都是在PC上运行但是使用多主体的强化学习时,迭代到1600左右就不动了,考虑到实验室还有服务器资源,遂想将tf、anaconda、conda等环境配置到远端服务器上。在此记录目标是:1.在PC的pycharm上能查看远端服务器的资源并进行交互;2.能通过PC的pycharm,使用远端服务器的资源运行使用tensorflow-gpu的python代码。首先澄清一下SSH可以视作一个连接远端服务器的工具,平时在cmd中用ssh原创 2020-06-29 14:06:23 · 10331 阅读 · 0 评论 -
【论文笔记】Applications of Deep Reinforcement Learning in Communications and Networking: A Survey
摘要本文综述了深度强化学习(DRL)在通信和网络中的应用。现代网络中的实体需要在网络环境不确定的情况下在本地进行决策,以使网络性能最大化。强化学习被有效地用于使网络实体在状态空间和行为空间较小的情况下,获得动作的最优选择。然而,在复杂的大规模网络中,状态空间和动作空间往往很大,强化学习可能无法在合理的时间内找到最优策略。因此,发展强化学习与深度学习相结合的DRL来克服这一不足。在本次调查中,我们首先提供了从基本概念到高级模型的DRL教程。然后,我们回顾了为解决通信和网络中的新问题而提出的DRL方法。这些原创 2020-06-30 21:26:41 · 3279 阅读 · 0 评论 -
[论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective
本文针对曼哈顿V2V网络中长期性能,通过结合信息年龄的资源管理进行了优化。通过观察每个时隙的全局网络状态,RSU将为VUE对分配频带并调度包的传输。本文将随机决策过程建模为一个离散时间MDP。技术难题包括:交通信息到达的高移动性和时变性带来的最优控制问题。解法为,首先将原始MDP分解为一系列VUE对的MDP。对于VUE在局部网络状态空间中的部分可观测性和高维诅咒,通过基于LSTM和DQN的算法加以解决。利用该算法,RSU根据部分观测在每个调度时隙以分布式的方式进行最优频带分配和分组调度。介绍V.原创 2020-05-11 15:59:10 · 2431 阅读 · 2 评论 -
[代码解读]基于多代理RL的车联网频谱分享_Python实现
论文原文:Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning论文翻译 & 解读:[论文笔记]Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning代码地址:ht...原创 2020-04-18 11:15:29 · 11937 阅读 · 51 评论 -
[强化学习]易混知识勘误_from李宏毅P6——Imitation Learning 模仿式学习
本文以这篇文章为纲,以问答的形式对其进行补足。1.行为克隆中,‘专家只能进行有限的采样’是啥意思?首先要明白行为克隆的含义,那就是当agent处于和expert相同的环境时,他将copyexpert的动作,但是当agent处于和expert不同的环境时,他就不知道怎么做了,也就是说expert不会遍历所有可能的环境,也就是专家(对环境)的采样有限。2.有点没看明白Daraset Agg...原创 2020-04-15 15:47:37 · 289 阅读 · 0 评论 -
[强化学习]易混知识勘误_from李宏毅P5——Sparse Reward的解决方法(目标太难怎么办)
本文以这篇文章为纲,以问答的形式对其进行补足。1.什么叫reward的分布非常分散(sparse,这里其实翻译成稀疏更恰当)?是这样,agent的动作空间很大,但是只有极个别的动作可以获得reward,也就是说在对于最初的大部分动作,它的reward都是0,这样一来agent在最初的许多步可能是根本无法进行学习的。比如:你期望机器人用扳手起钉子,但是机器人最开始只会随机的乱动,到底要乱动到...原创 2020-04-15 14:21:33 · 474 阅读 · 0 评论 -
[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C
本文以这篇文章为纲,以问答的形式对其进行补足。1.policy gradient后面为什么要用log2.policy gradient括号中的第一项那一大坨是个啥它其实很单纯,就是状态s选择t后直到episode结束所得的但步reward的加权和。这个用表示3.为什么要对G采样??首先G是一个RV(随机变量),虽然它有固定的分布概率,但是它的取值是随机的,这里是要估计...原创 2020-04-15 11:35:36 · 371 阅读 · 0 评论 -
[强化学习]易混知识勘误_from李宏毅P3——Q_Learning/ MC+PD
本文是这篇博文的注,如有需要请以其为纲1.Critic注:这里出现了Critic,作用是:评价actor(行为)的好还是不好,而不指导行为(指导行为是policy的工作)使用value function表征Critic,写作,他基于actor \pi(策略),衡量s(状态)的好坏。因为是对状态的评价,所以其实包含了使用此策略到游戏结束所有的reward之和。2.两种得到Critic...原创 2020-04-15 10:11:57 · 1184 阅读 · 0 评论 -
[强化学习]易混知识勘误_from李宏毅P2——PPO\Off-policy\On-policy
本文是这篇博文的注,如有需要请以其为纲1.On-policy/Off-policy若agent与环境互动,则为On-policy(此时因为agent亲身参与,所以互动时的policy和目标的policy一致);若agent看别的agent与环境互动,自己不参与互动,则为Off-policy(此时因为互动的和目标优化的是两个agent,所以他们的policy可能不一致)。两者在采样数据利...原创 2020-04-14 16:18:39 · 2840 阅读 · 0 评论 -
[强化学习]易混知识勘误_from李宏毅P1-----Policy Gradient
前言有兴趣也有幸能使用RL这个有前景的工具为集体做贡献,继上一篇关于RL(强化学习)的博文,这里想通过李宏毅老师的RL课程夯实基础知识,预计三天看完这八节课。出于时间考虑采用这篇博文作为讲义,笔记做得真的很详细,在这里感谢博主付出。本博文仅记载个人对RL的误解和新的理解。1.强化学习的三个组件:Actor(主体) 、Env(和环境)、Reward Function(奖励函数)后两者是...原创 2020-04-14 10:26:34 · 1529 阅读 · 2 评论 -
[强化学习]强化学习基础
前言为了应对车载网络中通信环境快速变化的难题,可以使用强化学习进行解决,这里结合莫烦PYTHON的教程对强化学习的基础进行整理。主要的应用场景为车载网络中资源分配问题。本文源自莫烦PYTHON 强化学习章节,有需要请查阅原文简介强化学习的主要构成有:agent(主体)、状态、动作准则、奖励函数。主要流程为:agent开始时处 于某种状态中,agent需要通过动作准则决定自己的动...原创 2020-04-07 11:34:07 · 568 阅读 · 0 评论