基于多智能体深度强化学习的车联网频谱共享

renhongxia1

于 2024-07-19 10:40:32 发布

阅读量584

点赞数 4

文章标签：人工智能多模态大模型多智能体

本文链接：https://blog.csdn.net/renhongxia1/article/details/140541902

版权

源自：电子学报

作者：王为念 , 苏健 , 陈勇 , 张建照 , 唐震

注：若出现无法显示完全的情况，可 V 搜索“人工智能技术与咨询”查看完整文章
人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······ 课程也可加V“人工智能技术与咨询”报名参加学习

摘要

针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题，提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标，利用学习算法改进频谱和功率分配策略.首先通过改进DQN模型和Exp3策略训练隐式协作智能体.其次，利用迟滞性Q学习和并发体验重放轨迹解决多智能体并发学习引起的非平稳性问题.仿真结果表明，该算法有效载荷平均成功交付率可达95.89%，比随机基线算法提高了16.48%，可快速获取近似最优解，在降低车联网通信系统信令开销方面具有显著优势.

关键词

车联网 / 分布式频谱共享 / 多智能体 / 深度强化学习

1 引言

车联网（Internet of Vehicles，IoV）是智能交通系统在物联网的典型应用［1］.自2000年开始，学术界提出车到万物（Vehicle to Everything，V2X）的概念，将车联网拓展为支持车辆与一切道路实体间进行通信的网络，能够支持多样的安全和娱乐服务［2］.V2X两种典型的操作模式是车间通信（Vehicle to Vehicle，V2V）和车到基础设施通信（Vehicle to Infrastructure，V2I）.V2V承载可靠性约束的安全信息传输，V2I面向高速率大容量需求的娱乐相关应用服务.随着车联网业务类型多样化发展，服务质量（Qualify of Service，QoS）需求日益增加，车联网中通信道干扰也愈发严重.在具有高动态网络拓扑、高移动性通信车辆节点等特性的车联网环境下，如何合理高效地对有限频谱资源进行分配，降低同信道干扰问题的影响，提升系统吞吐量和服务质量是车载通信架构下的重要挑战.车联网资源共享研究中传统的资源优化方案居多，但面临城市交通环境信道状态信息（Channel Status Information，CSI）不准确等问题，往往难以实现优化目标.文献［3~5］已经证明了深度强化学习（Deep Reinforcement Learning，DRL）在解决资源分配问题的潜力.近年来，利用DRL开发车联网频谱资源共享的学习算法受到学界和业界广泛关注.

车联网无线信道具有快时变、非平稳的衰落特性，对资源分配有更高的实时性和准确性的要求，因此基于DRL的车联网资源分配多是采用基于DQN的频谱分配方法.例如，针对单播和广播场景下V2V用户延时保障问题，文献［6］提出一种基于DRL的分布式车辆网络资源分配机制.针对C-V2X通信的传输模式选择和资源分配的联合问题，文献［7］提出了一种基于DRL的分布式算法，以同时满足V2I和V2V用户的QoS要求.但上述算法是针对静态环境，并未充分考虑无线网络环境动态变化引起的高方差和奖励值估计，存在算法鲁棒性不足的问题.文献［8］利用SAC强化学习理论建立神经网络，以熵最大化和累计奖励和最大化为目标训练智能体，使得V2V用户能够获得较优的频谱分配决策.文献［9］为减少网络信令开销，车辆用户使用一个深度神经网络压缩其观察信息，这些信息随后被反馈给集中决策单元并采用深度Q网络分配资源.上述两种方法是基于全局信息分配信道资源，而在复杂时变的车联网环境中全局信息获取与维护开销巨大.此外，文献［6~9］都属于传统的单智能体强化学习算法（Single-Agent Reinforcement Learning，SARL），很难适用于多用户的车联网场景.如果将SARL扩展到多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）设置，多智能体并发探索引起的非平稳性会显著阻碍训练并降低性能［10］.为了解决非平稳性问题，直接从多智能体的角度来研究车辆网络中的信道接入问题.文献［11］利用DQN理论提出了一种分布式算法来优化车辆网络中的频谱和功率分配，并提出了基于指纹的重放缓冲区来解决非平稳性问题，但该算法没有考虑环境动态变化的影响，导致性能较差.文献［12］研究了多智能体传动系统中车辆的最优访问控制，并提出了一种将统计学习方法和动态规划技术相结合的分布式访问算法，由于该算法使用了基于表格的动态规划方法，因此状态必须被量化为离散水平，限制了其在高维问题中的适用性.此外，文献［13］利用多智能体深度确定性策略梯度方法建模和处理非正交多址技术条件下V2I用户和V2V用户频谱资源分配问题，使得V2I用户和速率最大化且同时满足V2V通信严格的延迟和可靠性约束，但采用的是确定性策略，其算法稳定性较差.文献［14］提出利用双对抗深度循环Q网络和公共奖励训练隐式协作智能体的模型，缓解环境动态变化引起的不稳定奖励估计问题，但对车辆速度的鲁棒性较差.文献［12~14］虽然在不同方面取得了较好的优化效果，但依旧存在信令开销较大、算法健壮性不足等问题.

针对上述问题，为进一步提升复杂电磁环境下的频谱共享效率，本文提出了一种基于多智能体深度强化学习的V2X频谱分配算法.具体贡献如下.

（1）针对高速移动环境下频谱高效利用需求的挑战，提出了一种改进DQN模型，利用中长短时记忆网络LSTM和决斗网络架构实现高效的特征表示和价值近似.

（2）针对多智能体深度强化学习的非平稳性问题，利用迟滞Q学习方法训练其他智能体的负并发行为，结合并发体验重放轨迹CERT，同步多智能体训练过程，从而有效协调多智能体学习.此外，采用Exp3策略进行动作选择，更好估计每个动作的奖励.

（3）通过仿真实验验证该算法收敛性和收敛效果，且所提算法在信道总容量和有效载荷交付率等方面优于现有代表性算法，能够高效利用车联网频谱资源完成更多的通信任务.

2 系统模型与问题描述

车联网通信场景如图1所示，包括单个基站（BS）和多个车辆用户.车辆用户根据其通信需求的不同分为V2I用户和V2V用户，V2I用户需要大链路容量以支持面向信息娱乐的应用，V2V用户需要高链路可靠性传输安全相关信息，V2I用户和V2V用户的集合分别表示为M=｛1，2，…，m｝和K=｛1，2，…，k｝.

图1 车联网通信场景

为保证V2I用户高质量的传输，主要关注车联网上行信道.车辆通信网络中上行信道资源利用率不高，且BS端干扰更易于管理，V2V用户可复用V2I用户的上行信道资源，以提高子信道的利用效率.且假定V2I用户预先分配好具有固定传输速率的正交信道S=｛1，2，…，s｝，其中s表示子信道的数量.

为V2V用户设计有效的频谱共享方案，使V2I和V2V用户在高动态网络环境下，以最小信令开销实现各自目标.假定信道衰落在一个子信道内大致相同，且在不同子信道之间是独立的，则在时隙t内，V2V用户对k在信道s的信道功率增益为

（1）

其中，

表示与频率无关的大尺度衰落效应，即阴影效应和路径损耗；

表示与频率相关的小尺度衰落信道增益.在时隙t内，V2V用户 𝑘对V2V用户 𝑘'在信道s的干扰信道增益

，V2V用户 𝑘对BS在信道s的干扰信道增益

，V2I用户m对BS在信道s的通道增益

，以及V2I用户m到V2V用户k在信道s的干扰信道增益

等均可类似定义.

考虑V2X用户不同的传输需求，将正交信道进行动态分配，采用二进制指示变量 𝛼𝑚,𝑠和 𝛽𝑘,𝑠分别描述V2I用户和V2V用户是否占用子信道s，即

（2）

假定每个用户只能同时占用一个信道，且一个信道最多分配给一个V2I用户，多个V2V用户可以共享一个信道.于是，在时隙t内，V2I用户m在信道s的信噪比（Signal to Interference plus Noise Ratios，SINRs）为

（3）

与此同时，在时隙t内，V2V用户k在信道s的SINRs为

（4）

其中，

分别表示V2I用户m和V2V用户k的传输功率， 𝜎2表示噪声功率，以及

（5）

表示V2V用户k对所有信道的干扰功率.

根据香农定理，获得V2I用户m和V2V用户k在信道s时隙t的数据速率分别为

（6）

和

（7）

其中，W表示每个子频带的带宽.此外，引入矩阵

指示V2V用户链路是否可靠. 𝑎𝑘,𝑠,𝑡为V2V用户k在数据传输的可靠性能指标，即

（8）

其中，

表示V2V用户的SINRs门限值.

如前所述，V2I用户被设计为支持移动高数据速率的娱乐服务，为满足Qos需求将V2I用户的吞吐量需求定义为

（9）

其中，

表示可容忍的最小吞吐量.

与此同时，V2V用户负责可靠地传播安全关键信息，即延时和可靠性需求.这些信息根据车辆机动性以不同频率定期生成，建模为在时间预算T内成功交付大小为B的数据包，即

（10）

其中， 𝐵𝑘表示周期性生成V2V用户有效载荷的大小，

表示交付时间，假定生成周期等于可容忍延时

表示生成最新消息所需时间.

因此，系统整体目标是V2V用户如何合理选择自身传输参数，即占用的子信道和采用的传输功率，从而提高V2I用户和V2V用户的通信性能.基于此，车联网频谱资源分配问题定义如下：

（11）

其中，

表示V2V用户传输功率集.

表示信道选择指标集.约束C1和C2表示多样性Qos需求；约束C3和C4表示每个V2X用户同时只能占用一个信道.C5表示V2V用户可以使用的最大传输功率.

3 频谱共享方案设计

针对车联网频谱资源分配全局优化中CSI收集维护开销巨大的问题，采用分布式V2X资源分配机制.分布式架构下面临的主要挑战是如何协调多个V2V用户行动，使其不会为提升各自性能而损害整个系统的性能.此外，在式（10）中定义的V2V用户数据包传输率涉及在时间约束T内跨多个相干时隙进行顺序决策，指数级复杂性给传统的优化方法带来了困难.

为应对上述挑战，利用多智能体深度强化学习机制，建模为部分可观察马尔科夫决策.多智能体深度强化学习模型能有效建模高动态网络环境下序贯决策问题，多个智能体通过与复杂未知环境不断交互以试错寻求累积奖励最大的频谱选择策略，改进频谱分配和功率控制.

3.1 多智能体环境建模

在基于多智能体深度强化学习的频谱资源共享方案中，V2V用户作为一个智能体探索未知环境.建立部分可观察马尔科夫决策模型，如图2所示，每个时隙t内，给定当前环境状态 𝑆𝑡，V2V用户k接收环境的观察 𝑧𝑘（𝑡）确定为 𝑧𝑘（𝑡）=𝑂（𝑆𝑡,𝑘），采取动作 𝑎𝑘（𝑡），形成联合动作 𝐴𝑡.此后，智能体接收奖励 𝑅𝑡+1，环境演化到概率为p的下一个状态 𝑆𝑡+1.与此同时，每个智能体都会接收到新的观察值 𝑧𝑘（𝑡+1）.其中，智能体k的策略 𝜋依赖于局部观察.

图2 多智能体车联网部分可观察马尔科夫决策过程模型

3.1.1 状态和观测空间

环境状态 𝑆𝑡包括全局信道条件和所有智能体的行为.V2V用户只能通过观察获得底层环境的状态，观测空间包含本地信道信息 𝐺𝑚,𝑘,𝑠和V2V用户k对所有信道的干扰功率 𝐼𝑚,𝑘.综上所述，相关信道的观测空间为

（12）

其中，

（13）

然而，针对车辆网络中获取与维护CSI开销巨大的问题，改用V2V用户k对所有信道的干扰功率 𝐼𝑚,𝑘，剩余的V2V有效载荷 𝐵𝑘和剩余的时间预算 𝑇𝑘描述观测空间.此外，当V2V用户的数量增加时，在观测空间中添加不同用户标识有助于智能体学习不同的策略.因此，观测空间的维度为4×K.其中，V2V用户k的观察函数为

（14）

3.1.2 动作空间

在全局优化问题中，V2V用户优化子信道和传输功率选择的联合动作，所有V2V用户都具有相同的动作空间A.具体来说，V2V用户重用了V2I用户所占据的子信道，V2V用户的可用信道集对应于S.将可用的传输功率空间离散为多个层次（仿真中采用 23,10,5,-100）.因此，动作空间的维度为4×S，表示为

（15）

3.1.3 奖励值设计

如图3所示，智能体根据观察到的环境状态采取行动，环境将立即返回智能体一个奖励.然后在学习阶段，智能体根据收到的奖励更新资源分配策略，直到算法收敛.奖励函数根据式（11）表示的优化问题来设计.V2X频谱共享优化目标有两个：最大化V2I容量，同时在V2I时间约束内增加V2V有效负载交付的成功概率.因此，为了最大限度地增加V2X用户在t时隙满足QoS要求完成的任务数量，定义以下两个奖励元素.由式（9）可知V2I用户的总容量为 𝐶𝑀.此外，将每个V2V用户k在时隙t有效传输速率大小设置成奖励值，并且当所有载荷传输完成后该奖励值又被设置为常数 𝜉，表示为

图3 算法整体框架

（16）

其中， 𝜉是一个调优的超参数，大于迄今为止获得的最大V2V传输速率.因此，V2V用户越早完成传输，即 𝐵𝑘越早减少到0，V2V用户能获得的奖励就越多.

综上所述，在时隙t对应的系统奖励设置定义为

（17）

由于V2X用户的吞吐量分布随着车辆的移动性而变化，在式（17）中定义的奖励分配也可以发生变化.其中， 𝜆𝑚和 𝜆𝑘表示平衡V2I用户和V2V用户传输速率目标的权重.

3.2 V2X-DQSA算法设计

算法设计面临的3个挑战：（1）信道状态快速变化和部分可观测性；（2）多智能体并发训练引起非平稳性；（3）环境动态变化导致训练有效性的不准确评估.

为应对以上挑战，设计了基于多智能体深度强化学习的V2X频谱接入算法V2X-DQSA，该算法实现分布式频谱资源分配策略的优化，整体框架如图3所示.V2X-DQSA算法的主要思想是建立产生近似行为策略和策略价值判断的改进DQN网络，将车联网中V2V用户在时隙t产生的状态、行为、奖励存储在CERT记忆库中，通过优化网络损失函数反向训练神经网络以获得性能较佳的资源分配策略.

3.2.1 算法架构

传统RL方法都是针对静态环境而设计的，在V2X频谱共享问题中，环境的动态分布可能会发生变化.具体来说，式（17）中设计的奖励分配随着车辆的流动性而波动，引起的高方差和偏差奖励估计导致系统性能降低.为解决该问题，V2X-DQSA算法融合改进DQN和Double-DQN技术，并在训练过程中结合独立学习者（Independent Learners，ILs）训练范式、并发经验回放轨迹CERTs以及Exp3策略关键技术解决多智能体学习算法稳定性问题.

为了能够实现更加高效的特征表示和价值近似，采用深度神经网络（Deep Neural Network，DNN）与递归神经网络（Recurrent Neural Network，RNN）及决斗网络相结合的改进DQN架构，如图4所示.

图4 改进DQN架构

该架构中，DNN通常被用作一个函数近似器计算 𝑄值，即 𝑄𝜃（𝑧,𝑎），其中 𝜃表示DNN的参数.具体地，DNN利用循环隐藏层保持内部隐藏状态，自动聚合过去的观察结果.RNN基于所获得部分观察结果估计全局状态的能力，导致有效的学习POMDP策略［15］.此外，RNN的预测能力使其适合于快速变化问题.利用LSTM［16］作为隐藏层，负责学习如何随着时间的推移积累经验，通过保持一个内部状态，并随着时间的推移聚合观测结果，使得网络能够使用进程的历史记录估计真实状态.

决斗网络（Dueling Network）架构［17］，该架构下两个附带网络共存：一个由 𝜃参数化的网络用以估计状态值函数 𝑉(𝑧|𝜃)，另一个由参数化的网络用以估计优势动作函数.通过式（18）对两个网络进行聚合，以近似 𝑄值函数.

（18）

其中，评估采用从Q函数中减去状态相对于所采取动作平均值的方法.

在随机环境中，Q-learning使用最大动作值作为最大期望动作值的近似，引入额外的积极偏差对动作值造成高估.为此，结合Double-DQN［18，19］算法将动作选择与评估分离，采用双估计方法解决价值高估问题.Double-DQN更新的损失函数为

（19）

（20）

其中， 𝑌𝑡表示目标值，

表示静态目标网络的参数，使用目标网络直接更新.此外，将 𝑌𝑡-𝑄𝜃（𝑧,𝑎）用表示时间误差 𝛿.

此外，算法遵循独立学习者（Independent learners，ILs）训练范式，智能体以一种分散的方式学习自己行为反馈.但由于在探索阶段其他智能体的行为不可预测，导致ILs存在非平稳性.为解决这一问题，结合迟滞Q学习［20］（Hysteretic Q-learning），根据一个联合行动结果和估计两种学习率的状态值，分别用于高估和低估的时间误差 𝛿，可表示为

（21）

其中， 0<𝜙<𝛼<1.在实践训练中，随着训练过程的推进而逐渐增长，适应学习速度，以实现智能体在训练初期有效的对抗负面更新.

针对本地经验非并发性质引起的多智能体算法非平稳性问题，引入并发经验回放轨迹CERTs［21］.如图5所示，将每个体验元组可视化为一个立方体，在执行每个学习集e时，智能体k在时隙t收集经验元组，每一集经验都被存储在沿时间轴t排列的序列中.

图5 CERT结构

在训练过程中，所有智能体分别沿着事件轴e和智能体i轴同时存储经验.当需要时，对所有智能体进行同步的小批量采样，以执行 𝑄值更新.

此外，行动选择采取Exp3策略［22］，将 𝑄𝑘（𝑎）的分布向量 𝑝𝑘与均匀分布进行混合，以确保算法尝试所有动作，并对每个动作的奖励进行良好估计.具体计算方法为

（22）

其中， 𝜐>0， 𝜔表示温度参数.此外， 𝜐在实际应用中很小，随着时间的推移变为零，因此算法在选择具有高估计 𝑄值的动作时更加贪婪.

3.2.2 V2X-DQSA算法步骤

每个时隙内，各智能体执行基于多智能体深度强化学习的V2X频谱接入算法，多次迭代后选择概率最大策略作为V2V用户当前时隙的频谱分配策略.基于多智能体深度强化学习的V2X频谱分配算法详细步骤如算法1所示.该算法主要包含初始化、环境交互、模型更新3个步骤.

（1）初始化：重启V2X环境模拟，将每个V2V用户的Q网络参数 𝜃𝑘初始化.同时，当前迭代次数初始化为0.本步骤对应算法1中的1~4步.

（2）环境交互：在每个时间片内，每个V2V用户根据Exp3策略选择动作，获得近似的奖励值.将观察结果 𝑍𝑡{𝑧1（𝑡）,𝑧2（𝑡）,⋯,𝑧𝑘（𝑡）}存入CERT中.本步骤对应算法1中的5~9步.

（3）模型更新：从CERT中抽取一批经验进行训练.采用双DQN更新和滞后学习，通过神经网络梯度反向传播更新Q网络所有参数.目标网络以较低频率进行更新，以稳定评估网络更新.本步骤对应算法1中的10~14步.

算法1 V2X-DQSA

4 性能仿真分析

实验中使用3GPP中定义的两车道城市场景进行模拟仿真城市案例［23］，其中详细描述了车辆下降模型、密度、速度、移动方向、车辆通道、V2V数据流量等.车辆在一定范围内以随机速度初始化后保持均匀运动，根据道路拓扑结构移动，当到达一个十字路口时，会选择直转或以相等的概率转弯.此外，与文献［8］类似，将模拟面积缩小了2倍，以实现模拟的可处理性.M条V2I用户由X型车辆启动，K条V2V用户在每个车辆及其周围的邻居之间形成，假定V2V用户、V2I用户数量和子信道数量S相等，即S=K=M.表1中列出了仿真中的参数配置，表2列出V2I用户和V2V用户的信道模型参数，训练程序中采用的调优参数见表3.

表1 环境仿真参数

表2 V2I和V2V用户的信道模型参数

表3 调优超参数

在训练过程中，为提高评估的准确性，逐渐减少探索率 𝜐，并增加迟滞率 𝜙平衡积极和消极样本之间的更新.执行阶段，每个智能体感知局部观察，根据单个训练模型选择一个概率最大的动作.此外，与文献［9］类似，在训练阶段，选择最大有效负载，即L=6×1 060 byte，该情况是V2V用户完成数据包交付的最具挑战性设置，以验证该算法的鲁棒性.此外，为了获得多样化的训练样本，在训练过程中定期重新初始化车辆的位置.

通过提供多智能体应用场景下评估V2X-DQSA算法收敛的有效性，并且定义了信道总容量和有效载荷交付率作为所提算法与对比算法的性能指标.对比算法具体包括D3RQN［14］、DQN［11］、SAC［8］、随机基线法（random）以及集中式暴力搜索（centralized maxV2V）.随机基线法在每个时间片以随机方式选择每个V2V用户的频谱子波段和传输功率以最大化V2V用户总和率.集中式暴力搜索（centralized maxV2V）搜索所有V2V用户的动作空间，以获得最大的V2V用户总吞吐量.该算法虽然实用性不高，但可以为V2I和V2V用户提供性能上界，以分析所提算法的最优性.此外，为了验证该算法的可伸缩性，进一步研究了该算法在不同车辆速度下的性能.

图6和图7展示了当车辆用户分别为4和8时的累积奖励曲线与训练损失曲线，其中累积奖励曲线由训练过程中获得的相应最大值归一化.可以观察到，损失函数随着迭代次数的进一步增加近似收敛，并且累积奖励随着训练的继续而提高，表明了所提算法的收敛有效性和鲁棒性.

图6 V2V用户训练期间累计奖励

图7 V2V用户训练损失

为了对不同算法进行准确和稳健的验证，基于20种不同的随机数生成器种子进行仿真，并以95%的置信区间进行了说明.

图8所示为各种算法V2I用户相对于V2V用户不同有效负载的总吞吐量.由于有效载荷大小的增加必然导致V2V用户传输时间更长，不可避免地对V2I用户带来更强的干扰，因此所有方法的性能都会下降.虽然V2X-DQSA算法在观测空间中没有使用完全CSI，但在有效载荷大小增加的情况下，其信道吞吐量均大于其他算法.这是因为该算法采用随机行为策略，结合DNN和RNN两种思想，能够在短时间内为智能体选择最优行为，能更好地适用于车联网环境.同时随着有效载荷的增加，所有算法的V2I用户总吞吐量均降低，这是因为所有V2V用户共享频谱资源，V2I用户总吞吐量和V2V用户包传输比率之间存在权衡.图9显示所有算法V2V用户相对于增加有效载荷大小的成功交付率.随着有效载荷大小的增加，不同算法的交付率均在下降并且趋于稳定.初始交付率高是由于系统开始运行时信道资源充足且需要传输的有效载荷小，可以通过合理分配频谱资源完成传输任务.随着系统中传输任务的增加，对比算法的交付率明显低于所提算法，表明了该算法在跟踪变化环境动态的有效性.

图8 4条V2I用户信道总容量随载荷数量的变化

图9 4条V2V用户载荷成功交付率随载荷数量的变化

图10和图11展示了当车辆用户为8时，各种算法随有效载荷变化的吞吐量和交付率性能对比.从图中可以看出，各种算法的总吞吐量和交付率随着有效载荷的增加呈下降趋势.此时V2X-DQSA算法下降趋势和对比算法相比较为平稳，并且总吞吐量和交付率性能依旧优于其他算法，这是因为该算法Exp3策略的采用使得智能体在完成当前任务的基础上尽可能地行为随机化以获得近似最优的多种选择，提高了智能体在环境中的探索能力，也同时提高了算法在动态环境中的稳定性.

图10 8条V2I用户信道总容量随载荷数量的变化

图11 8条V2V用户载荷成功交付率随载荷数量的变化

进一步考虑车速对该算法性能的影响，在车辆低速的情况下，对V2V用户的SINRs门限值约束会降低某些车辆成功接入网络的可能性.而在车辆高速的情况下，网络用户间的耦合干扰低，V2V用户的SINRs门限值约束要求可以得到满足，更容易成功接入网络.图12和图13展示了当车辆用户是4和8，有效载荷为6×1 060 byte时，该算法的V2I用户总吞吐量和V2V用户包传输率之和.为了评价该算法的泛化能力，用速度［10，15］m/s训练的相同模型.车辆速度从五个不同范围生成，即［10，15］m/s、［15，20］m/s、［20，25］m/s和［25，30］m/s、［30，35］m/s.从图中可以看出，随着车辆速度的增加，所提算法的性能并没有明显波动，表明了该算法在高动态网络下的有效性和稳定性.

图12 车速对V2I用户总吞吐量的影响

图13 车速对V2V用户载荷成功交付率的影响

V2X-DQSA算法计算复杂度实际上取决于已实现的DNN结构，并随着隐藏层数和相应神经元数量的增加而增加.具体来说，每个智能体DNN由一个包含64个神经元完全连接的输入层、一个包含128个单元隐藏LSTM层和一个包含64个神经元完全连接的输出层组成.该算法用Python和PyTorch实现.如果能够在执行中引入更先进的加速技术，如模型压缩、量化、GPU，甚至专用FPGA、硬件加速等，还能够进一步提升效率.

5 结论

本文提出了一种基于多智能体深度强化学习的V2X频谱分配算法，该算法通过改进型DQN模型设计，支持V2V用户仅基于局部CSI观测结果优化联合子信道和传输功率的选择，并在没有智能体间通信的情况下进行隐式协调.在满足V2V用户延迟和可靠性要求的同时，最大限度地提高V2I用户的总吞吐量.仿真实验结果表明，所提算法能够获得稳定和具有更好收敛性能的模型，同时算法也降低了信令开销，并具备较好的可扩展性.未来改进方向包括设计适应实际环境的复杂交通、信道和车辆移动模型，进一步提高所提算法可扩展性泛化、训练效率和鲁棒性等.

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨，并不意味着支持其观点或证实其内容的真实性。版权归原作者所有，如转载稿涉及版权等问题，请立即联系我们删除。

注：若出现无法显示完全的情况，可 V 搜索“人工智能技术与咨询”查看完整文章
人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······ 课程也可加V“人工智能技术与咨询”报名参加学习

renhongxia1

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于多智能体深度强化学习的车联网频谱共享

源自：电子学报作者：王为念 , 苏健 , 陈勇 , 张建照 , 唐震注：若出现无法显示完全的情况，可 V 搜索“人工智能技术与咨询”查看完整文章人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······ 课程也可加V“人工智能技术与咨询”报名参加学习摘要针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题，提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标，利用学习算法改进频
复制链接

扫一扫