Globecom论文推荐、DeepMind证明强化学习在开放域中的适应性、强化学习知识大讲堂、《强化学习周刊》第76期...

No.76

智源社区

强化学习组

 习

6996e90a25c96ec4a03c89f4097adc3a.png

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第76期《强化学习周刊》以飨诸位。

强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分三个板块,论文推荐板块为读者梳理了GLOBECOM 2022会议中8篇有关强化学习研究论文;另外科研咨询板块为读者分享DeepMind证明强化学习在开放域中的适应性,DeepMind中自适应智能体团队证明了大规模训练 RL 智能体会产生一种通用的上下文学习算法,该算法可以像人类一样快速地适应开放式新颖的具身 3D 问题。本次教程推荐板块介绍来自知乎专栏——强化学习知识大讲堂,主要分享强化学习相关的知识点总结、顶会论文解读、读书笔记等内容,在专栏中不仅可以学习到强化学习的基础原理,还可以了解强化学习领域前沿的科研动态。

本期贡献者:(李明,刘青、小胖)

a114ce58d0b73e6989b6cf8bcad76426.jpeg

ceda7e634c99414d650d49f26b6d65fd.jpeg

ad01ab837d73f3e3ff7a2118feb67bae.jpeg

d0134001c258b11207c97d01686a2af7.jpeg

24ba39dbf761423b3b7953040d318aa1.jpeg

论文推荐

论文来源:IEEE全球通信会议(GLOBECOM)是IEEE通信协会的两个旗舰会议之一,致力于推动通信几乎每个方面的创新。每年,3000多名科研人员及其管理层都会为在年会上举行的项目会议提交提案。经过广泛的同行评审,选出了会议计划的最佳提案,其中包括专门为推进技术、系统和基础设施而设计的技术论文、教程、研讨会和行业会议,无缝且经济高效的全球电信服务。

2022年IEEE全球通信大会(GLOBECOM)于2022年12月4日至8日在温暖美妙的巴西里约热内卢举行。这次IEEE通信协会的旗舰会议以“通过智能通信加速数字化转型”为主题,举办一个全面的高质量技术计划,包括13场研讨会和各种教程和研讨会。

标题:Hierarchical Reinforcement Learning for RIS-Assisted Energy-Efficient RAN(渥太华大学: Hao Zhou|RIS 辅助节能 RAN 的分层强化学习)

简介:可重构智能表面 (RIS) 正在成为一种很有前途的技术,可以提高 5G 超越和 6G 网络的能源效率 (EE)。受这种潜力的启发,本文研究了 RIS 辅助的节能无线电接入网络 (RAN)。特别是,作者将 RIS 与睡眠控制技术相结合,并开发了一种用于网络管理的分层强化学习 (HRL) 算法。在 HRL 中,元控制器决定异构网络中小型基站(SBS)的开/关状态,而子控制器可以改变 SBS 的传输功率水平以节省能量。模拟表明,与无 RIS 条件相比,RIS 辅助睡眠控制可以实现显着更低的能耗、更高的吞吐量和超过一倍的能效。

论文链接:https://arxiv.org/pdf/2301.02771.pdf

标题:Graph Reinforcement Learning-based CNN Inference Offloading in Dynamic Edge Computing(奥胡斯大学: Nan Li|动态边缘计算中基于图强化学习的CNN推理卸载)

简介:本文研究了动态多访问边缘计算 (MEC) 网络中 CNN 推理的计算卸载。为了解决通信时间和边缘服务器可用容量的不确定性,本文使用提前退出机制来提前终止计算以满足推理任务的截止日期。作者设计了一个奖励函数来权衡通信、计算和推理精度,并将 CNN 推理的卸载问题表述为最大化问题,目标是长期最大化平均推理精度和吞吐量。为了解决最大化问题,本文提出了一种基于图强化学习的早期退出机制(GRLE),它优于最先进的工作,基于深度强化学习的在线卸载(DROO)及其增强方法 DROO 在不同的动态场景下具有提前退出机制(DROOE)。实验结果表明,GRLE 的平均精度比图强化学习 (GRL) 高 3.41 倍,比 DROOE 高 1.45 倍,这显示了 GRLE 在动态 MEC 中卸载决策的优势。

论文链接:https://arxiv.org/pdf/2210.13464.pdf

标题:Deep Reinforcement Learning for Online Latency Aware Workload Offloading in Mobile Edge Computing(新墨西哥大学: Zeinab Akhavan|移动边缘计算中在线延迟感知工作负载卸载的深度强化学习)

简介:由于物联网(IoT)设备的资源受限特性,将任务从物联网设备卸载到附近的移动边缘计算(MEC)服务器不仅可以节省物联网设备的能量,还可以减少执行任务的响应时间 . 然而,由于 MEC 服务器的计算资源有限,将任务卸载到最近的 MEC 服务器可能不是最佳解决方案。因此,联合优化卸载决策和资源管理至关重要,但仍有待探索。这里,卸载决策是指在哪里卸载任务,资源管理是指 MEC 服务器中有多少计算资源分配给任务。通过考虑任务在通信和计算队列中的等待时间(大多数现有工作都忽略了这一点)以及任务优先级,本文提出了基于深度强化学习的卸载决策和资源管理(DECENT) 算法,它利用优势 actor critic 方法为每个到达的任务实时优化卸载决策和计算资源分配,这样可以最小化累积加权响应时间。

论文链接:https://arxiv.org/pdf/2209.05191.pdf

标题:Hierarchical Deep Q-Learning Based Handover in Wireless Networks with Dual Connectivity(渥太华大学: Pedro Enrique Iturria Rivera|具有双重连接的无线网络中基于分层深度 Q 学习的切换)

简介:5G New Radio 提议使用 10 GHz 以上的频率来加速 LTE 现有的最大数据速率。然而,5G 天线的有效尺寸及其对城市场景信号衰减的影响使得保持稳定的覆盖和连接成为一项挑战。强化学习 (RL) 已在无线场景中显示出巨大潜力,鉴于此类上下文的动态特性,需要进行参数学习。本文提出了两种强化学习算法:一种名为 Clipped Double Q-Learning (CDQL) 的单智能体 RL 算法和一种分层深度 Q-Learning (HiDQL),以改进多无线接入技术 (multi-RAT) 双连接切换。本文将提出的建议与两个基线进行比较:固定参数和动态参数解决方案。仿真结果显示延迟方面有显着改善,数模波束成形 (BF) 增益分别为 47.6% 和 26.1%,混合模拟 BF 增益分别为 17.1% 和 21.6%,模拟-模拟 BF 增益分别为 24.7% 和 39% 。

论文链接:https://arxiv.org/pdf/2301.05391.pdf

标题:On the Implementation of a Reinforcement Learning-based Capacity Sharing Algorithm in O-RAN(UPC: Irene Vilà|基于强化学习的容量共享算法在 O-RAN 中的实现)

简介:无线接入网络 (RAN) 切片中的容量共享问题涉及在各个 RAN 切片之间分配每个 RAN 节点的可用容量,以满足其流量需求并有效利用无线资源。虽然文献中已经提出了几种容量共享算法解决方案,但它们的实际实现仍然存在差距。在本文中,讨论了在 O-RAN 架构上基于强化学习的容量共享算法的实现,为所涉及的接口的操作和解决方案的容器化提供了见解。此外,还包括了为验证解决方案而实施的测试平台的描述,并提供了一些性能和验证结果。

论文链接:https://arxiv.org/ftp/arxiv/papers/2207/2207.10390.pdf

标题:Multi-agent reinforcement learning for intent-based service assurance in cellular networks(Ericsson研究: Satheesh K. Perepu|用于蜂窝网络中基于意图的服务保证的多智能体强化学习)

简介:最近,由于对许多用例的严格性能要求,基于意图的管理在电信网络中受到了广泛关注。现有研究的几种方法采用电信领域的传统方法来实现 KPI 的意图,可以将其定义为闭环。然而,这些方法认为每个闭环相互独立,这会降低组合闭环的性能。此外,当需要许多闭环时,这些方法不易扩展。多智能体强化学习 (MARL) 技术已在传统闭环控制不足的许多领域显示出显著的前景,通常用于循环之间的复杂协调和冲突管理。本文提出了一种基于MARL的方法来实现基于意图的管理,而不需要底层系统的模型。此外,当存在相互冲突的意图时,MARL 智能体可以通过优先考虑重要的 KPI 来隐式激励循环进行合作,而无需人工交互。已经在网络仿真器上进行了优化三项服务的 KPI 的实验,所提出的系统表现良好,并且能够在有足够资源时实现所有现有意图,或者在资源稀缺时优先考虑 KPI。

论文链接:https://arxiv.org/pdf/2208.03740.pdf

标题:Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in O-RAN(科罗拉多大学: Fatemeh Lotfi|用于 O-RAN 中动态切片管理的进化深度强化学习)

简介:新一代无线网络需要同时满足各种服务和标准。O-RAN 切片正在被研究作为在面对不断变化的环境时确保网络服务质量 (QoS) 的关键策略。但是,必须对不同的网络切片进行动态控制,以避免环境快速变化导致的服务水平协议 (SLA) 变化。因此,本文介绍了一种新颖的框架,能够通过配置的资源智能地管理网络切片。由于多样化的异构环境,智能机器学习方法需要充分的探索来处理无线网络中最恶劣的情况并加速收敛。本文提出了一种基于进化的深度强化学习(EDRL)的新解决方案,以加速和优化无线接入网(RAN)智能控制器(RIC)模块中的切片管理学习过程。为此,O-RAN 切片表示为马尔可夫决策过程 (MDP),然后使用 EDRL 方法对资源分配进行优化求解,以满足服务需求。仿真结果表明,所提出的方法优于 DRL 基线 62.2%。

论文链接:https://arxiv.org/pdf/2208.14394.pdf

标题:Dynamic Unicast-Multicast Scheduling for Age-Optimal Information Dissemination in Vehicular Networks(约克大学: Ahmed Al-Habob|车载网络中年龄最优信息传播的动态单播-多播调度)

简介:本文研究了在车辆网络中最小化信息年龄 (AoI) 和传输功耗的问题,其中路边单元 (RSU) 为车辆提供有关一组物理过程的及时更新。每辆车都对保持其关于一个或多个物理过程的信息状态的新鲜度感兴趣。本文提出了一个框架来优化单播、多播、广播或不向车辆传输更新的决策以及功率分配,以在一段时间内最小化 AoI 和 RSU 的功耗。公式化问题是一个混合整数非线性规划问题(MINLP),因此难以实现全局最优解。在这种情况下,本研究首先开发了一个蚁群优化 (ACO) 解决方案,该解决方案提供了接近最佳的性能,因此可以作为一个有效的基准。然后,为了实时实施,开发了一个深度强化学习 (DRL) 框架,该框架捕获车辆在状态空间中的需求和通道条件,并通过动态单播-多播调度动作将进程分配给车辆。

论文链接:https://arxiv.org/pdf/2209.13006.pdf

科研资讯

标题:DeepMind证明强化学习在开放域中的适应性

简介:基础模型在监督和自我监督学习问题中表现出令人印象深刻的适应性和可扩展性,但到目前为止,这些成功还没有完全转化为强化学习 (RL)。

DeepMind中自适应智能体团队证明了大规模训练 RL 智能体会产生一种通用的上下文学习算法,该算法可以像人类一样快速地适应开放式新颖的具身 3D 问题。在广阔的环境动态空间中,其自适应智能体 (AdA) 展示了即时假设驱动的探索、对所获得知识的有效利用,并且可以通过第一人称演示成功地得到提示。适应性来自三个要素:(1) 跨大量、平滑和多样化的任务分布的元强化学习,(2) 策略参数化为大规模的基于注意力的记忆架构,(3) 一种有效的自动化课程,可以优先处理代理人能力前沿的任务。研究展示了关于网络大小、内存长度和训练任务分布丰富度的特征缩放法则。此研究结果会为越来越通用和自适应的 RL智能体奠定基础。

资讯链接:https://arxiv.org/pdf/2301.07608.pdf

教程推荐

标题:知乎专栏——强化学习知识大讲堂

简介:“强化学习知识大讲堂”是由知乎专栏作者——“天津包子馅儿”创建的专栏,主要分享强化学习相关的知识点总结、顶会论文解读、读书笔记等内容,在专栏中不仅可以学习到强化学习的基础原理,还可以了解强化学习领域前沿的科研动态。

教程链接:https://www.zhihu.com/column/sharerl

5f69cc2cba6d9058e0f81aa93425e9a6.jpeg

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群

16f7c90e1eae9daed6dddd4a90afa577.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值