无线大模型:机遇、挑战与研究方向

8eef96c87187cc018d618a0247233db2.png

d9e40f9f4bcaf67d5362490c012697e0.gif

   无线大模型:

机遇、挑战

 与研究方向 

0f8e7e2299faa19b506e2b80caf6e3d6.gif

Reference:“Z. Chen, Z. Zhang and Z. Yang, "Big AI Models for 6G Wireless Networks: Opportunities, Challenges, and Research Directions," accepted by IEEE Wireless Communications

 (https://arxiv.org/abs/2308.06250)”

摘要:大(人工智能)模型,正凭借着其前所未有的智能深刻地影响着诸多领域的发展。而这一技术是否会为无线网络的演进带来助力一直备受研究者们的关注。在这篇推文中,我们将阐述这样一个观点:大模型,及其背后的通用智能技术,对于6G网络的演进有着极其重要的意义。创造为无线系统服务的大模型(无线大模型),将帮助解决诸多横亘在无线技术演进中的困难。具体地,我们将在推文中对于无线大模型的基本概念,研究价值,核心原则与架构进行介绍,并对无线大模型研究所需要解决的关键挑战以及一些潜在的技术方法进行综述。

一.前言

4a62529b9851d9096ec3a979478cdd87.gif

大模型技术,正在给以自然语言处理为代表的诸多领域带来革命性的变化。借助于充分的预训练,大模型获得了前所未有的泛化性和广域智能,仅仅依靠一个模型就可以服务大量的下游应用,并且仅需要少样本甚至零样本学习就能实现最先进的性能。图1概括了大模型技术的工作流程和常用算法。这种出色的能力改变了过去对深度神经网络只具有适配特定任务的弱泛化性的认识。人工智能(AI)技术,将不再仅仅只被用于替代特定的功能模块,而可能为某些领域带来领域通用的信息处理方案。

cfd3b28df77d00e5d7ac14e2da02c384.png

图1、大模型(BAIM)是指一种通过恰当的建模、充分的预训练和针对性的适配来捕获普适性的智能并服务广泛下游应用的崭新机器学习范式。建立专属于无线网络的BAIM将推动无线系统向着功能更加集成、架构更加灵活以及服务更加定制化的方向演进。

而信息处理技术的进步往往都会深度赋能无线网络的演进。我们将其大致分为三个层次,如图1所示。首先,在第一层次,传统的信号处理技术实现了调制、滤波和解调等功能,保证了基本的无线传输。然后,在第二层次,深度学习辅助通信系统进行隐式的特征提取和高维表征,产生了低成本信道反馈、非视距定位和智能波束等技术。这些技术推动了很多先进的无线应用,如MIMO传输和可靠的无线定位。而在第三层次,我们开始探索借助适配于无线网络的大模型,为无线网络建立更通用更智能的信息处理方案,以实现6G的愿景:构建无处不在的智能,并支持诸多前所未有的用例。这种探索的可行性有着两方面的例证。一方面,现有的无线AI研究表明,深度神经网络在非线性变换、鲁棒性和决策方面的优势可以被很好地用于解决无线网络的问题,因此更高层级的智能很可能会给无线网络带来更多的机遇。另一方面,无线系统中充足的无线数据、分布广泛的计算资源以及无线AI研究的算法积累,也能够为产生服务于无线网络的大模型提供必要的资源和技术支撑。

因此,这篇推文对用于6G网络的无线大模型进行展望,包括主要的设计原则、框架以及一些初步的研究实验。同时,还讨论了无线大模型研究中存在的挑战和关键问题,并给出了一些研究方向和潜在的技术方法。

二.为什么6G网络中会需要无线大模型:动机与机遇

8c3283e8b65cb1ec3c77cd24e3d0c67b.gif

在6G网络中融入深度学习技术并不是一个崭新的话题。然而,尽管现有的无线AI技术已经在相应用例上带来了一定的性能提升,但现有的无线AI架构仍不能够满足6G网络对智能的需求。一个关键的原因在于现有的无线AI架构是任务特定和场景特定的,需要根据目标的任务和场景进行相应的数据收集和训练,如图2所示。而这样的架构存在着一些难以克服的痛点:

6cbd9ff8044190f960f98e62bd1efc57.png

从功能上说

依赖单任务和场景有限的数据和训练资源建立的AI模型,其智能程度和泛化性严重受限,不仅在复杂用例中会性能严重退化,也无法自主地集成多个任务和场景的功能以提供高级应用。

c74b45238bcb016356ad067f3d3bf108.png

从成本上说

需要在每个任务和场景上都进行大量的数据收集和训练,使得拓展新任务、适配新场景、应对场景变化都需要持续付出高昂开销,进而无法以低成本将无线AI技术进行广泛部署。

f88792d72ea738d190a51ee95dbef80f.png

从部署上说

现有无线AI模型都专注于解决自身特定的任务和场景,因此将这些模型部署在同一设备上往往会会在计算和信令资源上产生冲突,同时各个模型之间也很难交互信息,只能建立“零碎”的智能。

因此,6G网络仍然需要构建一种更高效、成本可持续、具有良好通用性和可扩展性的无线智能,这正是大模型与过去AI技术在信息处理能力上的显著区别。因此我们认为大模型极有潜力成为下一代无线网络的关键配方,以改善甚至质变无线AI的可用性。但是无线大模型本身仍然是个相对模糊的技术概念,接下来,我们对无线大模型究竟会以怎样的方式工作于无线系统以及它的基本框架和原则进行介绍。

三.无线大模型如何在6G网络中工作:核心架构与基本原则

6a75eaa7c0a215bdf641535f141ab098.gif

1) 预训练一个无线大模型作为智能的基础

2492982c05dd27f3ab85c8fe13d4517f.png

b5a65a099b0208731aff7682f393d826.png

c97dc0dd72a584a4c9dc413bd9974a9b.png

首先,无线大模型不再是在目标设备上进行特定任务和场景的训练,而是在云和边缘的协作中进行预训练,如图2所示。预训练的主要目标是产生能只需要微调或提示就能部署到海量无线任务和场景的基础模型。为了实现这一目标,来自多个场景和任务的数据、适配数据类型的训练方法,如对无标签的信道状态信息(CSI)数据进行无监督学习,对标注的信道-位置对进行监督学习,以及无线原生的目标函数是必不可少的。而预训练的好处是双重的。首先,借助更充足的无线数据和更丰富的训练资源,无线模型的智能将得到显著提高,确保即使在某些困难用例下仍能保持出色的性能。其次,基于预训练模型,将不再需要针对特定的任务和场景进行大量的数据收集和训练,从而显著降低广泛部署无线AI的总开销。

5bbf8a427f7f848723e2fe4d742dcffb.png

图2、基于无线大模型的网络架构。首先对能够捕获通用无线智能的大模型进行预训练,然后基于训练后的大模型提供一种统一的部署范式:集成多个无线任务、统一多种通信场景和全网一体化调度

2) 借助基础模型,构建一个通用的无线AI部署模式

5afc923fdb262daf144fc24253bcc330.png

feb21130a7e12d23e1a39e2268369068.png

b02e617560ba612e260b5e4b7261a247.png

将资源集中在预训练上并不仅仅是为了提高性能。它最重要的意义在于打破跨任务、跨场景和多代理调度之间的障碍,如图2所示。

A. 集成多个无线任务:无线任务之间往往有着很强的相关性。例如,完成CSI压缩反馈需要对高维信道进行特征提取和压缩重建,而基于信道的定位也需要类似的特征提取过程。此外,智能的波束管理也通常需要对信道的性质进行学习和表征。这种任务间的相关性使得使用一个模型来集成这些任务有着很强的可行性,而这种集成也将促进更多高层级应用的产生。而通过低成本的微调或提示,仅基于一个模型实现多个相关任务,这正是大模型的显著特征之一。因此,基于无线大模型的架构强调基于预训练的大模型完成多个常规的无线任务,而不是依赖特定模型来孤立地完成每个任务。

B. 统一多个通信场景:如果在不同的蜂窝场景中都部署场景特定的无线AI模型,那么拓展到新场景的成本、场景间的信息交互以及场景自身的动态变化都会变得难以解决。因此,使用一个模型来通用地服务多个场景是非常重要的。虽然在不同的场景中,不同的散射体分布会导致不同的数据分布,但电磁波始终遵循相同的物理规律。这保证了使用一个神经网络服务于多个场景的可行性,只是网络需要很大的信息容量。这对应了基于无线大模型架构的另一个特点:通过具有跨场景泛化的预训练模型来服务所有场景,而不是为不同的场景提供特定的模型。这种跨场景既包括了在空间尺度上不同的散射体分布,也包括了在时间维度上发生动态变化的场景。

C. 全网一体化调度:集成多任务和统一多场景将赋能全网范围内的一体化调度,包括蜂窝内自主调度、跨蜂窝同步和基于云的指令。具体来说,通过集成多个任务,系统可以从一个蜂窝内的多个用户处获取多模态状态信息,从而提供实时资源分配方案。此外,由于不同的场景间部署相同的模型,不同场景的模型所获得的信息在格式上是一致的。因此,可以更方便地实现场景间的信息同步,为跨场景的调度带来方便。同时,预训练无线大模型的云也可以轻松地与场景上的模型交换信息。这种一体化架构有效避免了多个智能任务之间的资源冲突,能够更好地支持无线业务的跨场景切换。

855b26204953e1f1fa7d13526b818e15.png

图3、无线预训练和统一部署的试点研究。左侧展示了如何使用CMixer模型来同时服务于信道估计和反馈任务,并提供了该模型的参数设置。中间部分展示了来自开源数据集DeepMIMO的多个通信场景与系统的设置。我们假设训练数据是从场景1和2中收集的,并将训练好的模型部署于场景1、2和3中。右侧显示了每种设定下10个独立重复实验的测试性能。彩色条是平均值,误差条是上限和下限。

3) 预训练和通用部署的试点研究

b794eaf746bbb0a2c82e386de8c50417.png

8431b8b74d0f473103f549b3c4db0ba6.png

255a08ecc42694f8b5410fb11dc52476.png

对于上述预训练和通用部署这一崭新的无线AI架构,这里通过一个demo实验来初步评估可行性和价值。具体地,本文构建了一个CMixer神经网络模型,该模型可以基于部分天线和载波上的子信道映射得到整个MIMO-OFDM信道。同时,使用从两个场景中收集的数据来训练该模型。图4详细描述了这个演示实验,包括收发器架构、场景图和参数表。总的来说,这是一个简化的预训练,但仍然可以比任务以及场景特定的训练产生更通用的部署。首先,由于信道映射需要模型深度挖掘空域和频域的内部相关性,有效的映射模型可以被同时用于低导频信道估计和低成本信道反馈两种经典的无线任务。同时,从多个场景中收集的数据能够比从单个场景收集提供更丰富的可学习信息。在有充足学习容量的情况下,更广泛的学习通常可以进一步改善性能和泛化能力。

实验结果如图3中的柱状图部分所示。CMixer模型实现了高精度的信道映射。只需使用少量的导频来估计部分天线和载波上的子信道,并将这些子信道输入到CMixer中即可获得整个MIMO-OFDM个信道。同时,在只部分反馈子信道的情况下,BS基于CMixer模型仍可以以较低的NMSE重构整个下行信道。这省去了为两个任务设计单独模型的必要,以及相应的数据和训练开销。此外,特定场景训练和预训练之间的性能对比表明单个模型可以成功地推广到多个场景。特别是,在足够的参数规模(更大的模型)的支持下,无论是在收集训练数据的场景(场景1和场景2)还是在新的场景(场景3)中,预训练都可以取得比特定场景训练更好的性能。这些结果证实了本文的观点,表明基于预训练的大模型可以支持跨任务和场景的统一部署,并提供比传统无线AI架构更好的性能。

四.无线大模型研究中的

挑战和关键问题

b3deb220114155b584aff045a45e659f.gif

尽管大模型技术在其他领域取得了一些初步成功,但由于无线网络中的一些独特性质和要求,无线大模型仍然面临一些由无线系统约束产生的挑战和关键问题,如图4所示。

4d8ab9a4bbc5a362be64c95e988b422a.png

图4、无线大模型的挑战与关键问题

1

建模以及捕获通用的无线智能:无线大模型的首要挑战是建立能够服务于整个系统的智能形式,包括不同的无线任务和场景。总的来说,这个形式必须能够驱使模型学习产生各种有规律现象的基本机制,并满足众多的应用需求。例如,GPT利用上下文生成来挖掘语言内的智能,即上下文之间的密切相关性,并能够满足问答、会话等常见的语言应用需求。在无线网络中,各种任务和场景的规则本质上来源于电磁波的物理规律,其核心应用需求在于获取无线状态以及自适应决策。这些原则将指导通用无线智能的建模和设计。然而,具体的智能形式和学习范式仍然是无线大模型研究中的开放性问题。

2

学习和表征多模态数据:无线数据的类型是多种多样的,需要模型应对信道频率响应、位置坐标和接收信号等多种模态的输入和输出。不同模态具有不同的数据结构和特性,会对无线模型的表征能力和泛化带来挑战。此外,不同的无线模态之间存在独特的相关性和互补性。如何利用这些特性,例如融合CFR的状态信息以更精确地检测接收信号,以及从位置坐标中补充空间信息来产生高质量的波束矢量,也是很重要的问题。

3

云边缘协同计算:无线网络中丰富的数据和计算资源是产生无线大模型的基础。然而,如何充分利用这些资源还有待研究。一方面,需要解决数据孤岛的问题。受传输成本、隐私等问题的限制,并非所有场景下的数据都可以集中在云端。为了使边缘数据参与训练,需要有效的信息交换方法。另一方面,如何让海量边缘设备参与大规模计算也需要研究。有效的计算范式对于低带宽协作众多边缘设备,使小设备在大模型计算中发挥作用具有重要意义。

4

低时延推理:无线通信对实时性有着很高的追求,而高延迟导致的信息过期也会影响传输的准确性。将大模型引入无线系统后,模型的推理延迟以及模型与其他无线组件(如射频模块)的交互延迟也将成为总延迟的一部分。如何使模型进行快速推理,并将射频组件与AI模型紧密连接是一个重要问题。此外,如何利用模型自身的智能性对状态变化进行预测和补偿,以抵消延迟带来的危害也很有研究价值。

5

在受限的交互下工作:由于有限的通信资源,短时间内(比如一个相干时间)用户与基站之间的信息交互是受限的。如何在交互受限下进行尽可能高效的信息传递,这涉及以下子技术:在发送端和接收端建立匹配的信息压缩和重构方案,例如MIMO CSI反馈中的编码器和解码器对;设计的模型应该能够在只接收部分信息作为输入的情况下进行有效的特征提取;驱动模型输出高密度的信息,这在某种意义上是语义通信思想在物理层传输的应用。

6

抵御干扰、噪声和误差的影响:干扰、噪声和误差一直是无线通信算法所面临的挑战,并将将延续到无线模型中。在实际应用中,无线大模型接收到的信号会有噪声,发送的信号在传输过程中会产生偏差,获取的状态信息会不完全准确。这使得无线大模型的研究需要关注如下几个问题:如何通过有效的结构设计来提高模型的去噪能力?如何设计合理的训练过程来锻炼模型的鲁棒性以应对潜在的误差扰动;如何利用模型的智能来估计多用户间的干扰,自适应地选择合适的抗干扰方案。

7

提供多址接入的服务:以多址接入策略区分多用户是无线网络的重要特点,这使得无线大模型与其他领域的大模型在功能需求上会有所不同。对于现有的大模型而言,其处理的输入输出都是已经滤除用户地址特征的信息。例如,如果不同的用户询问相同的问题,GPT会收到相同的token序列作为输入,也可以以相同的token序列作为输出回答不同用户。然而,对于直接工作在无线网络中的无线大模型而言,其信息处理和表达不能忽略用户地址之间的差异。例如,在FDMA模式下,不同用户的CSI不仅在信道路径分量上不同,而且在分配的子载波上也不同。在这种情况下,当将多用户CSI输入到无线大模型时,模型应能够额外区分多个频址之间的特性差异;当模型输出多用户信息时,需要嵌入相应的频址特征。对于这个独特的挑战,有两个想法值得研究。首先是使模型独立于用于区分多个用户的物理域,摆脱用户信号在地址上差异所带来的干扰。另一种是使模型接受用户地址信息的嵌入,直接提供针对用户地址定制的差异化服务。

五.无线大模型的研究方向和一些潜在方法

93a1ebcaf4ea2282cf035d6c9eed9cfa.gif

深度学习方法一般包括如下的几个流程:数据获取、建模、训练和部署。如何构建基于无线大模型的网络架构以及如何解决第四节中提及的挑战也将在这些过程中得到具体的实现。本节根据这四个过程的顺序,介绍一些有价值的研究方向和潜在的技术手段,如表1所示。

140e0e1aab8742f057c462e70fd0e088.png

表1、无线大模型的研究方向和潜在技术手段

1) 构建数据量充足、信息丰富、异构的无线数据集:

5e3c7e468f2e4f2be452203bd3f28e1e.png

bf932c1835aac5a1c7ff073cab8e2139.png

e0e372f8b8a7b79459aac21c78ec39ac.png

A. 真实数据的收集:数据集作为信息源,向模型传授知识并指导学习过程。因此,为了减少实际部署与训练之间的偏移,最好能够从实际系统中收集训练数据。在这种情况下,隐私保护和确保数据公平性是必不可少的。量子协议、区块链、同态加密和调度策略均是潜在的技术工具。

B. 数据扩充:在数据收集后,通过数据扩充扩展无线数据的价值对于改善模型的性能很有价值。一种方法是根据电磁信号的先验物理特性进行扩充,如复数域旋转、裁剪和翻转。另一种方法是基于已知的无线模型生成模拟数据集,例如基于射线跟踪模型产生的信道-位置对。此外,也可以先使用生成模型学习收集到的数据的概率分布,然后基于这些生成模型的生成结果对训练数据进行扩充。

2) 对无线特性的表征与建模

de4647e263f8e2b9fcd13f16a442a61d.png

f084c77ce541625e48a1e55370ca0e31.png

5e7bddc0e65297b134030372c5c6c2d9.png

A. 能够刻画无线数据结构和特性的学习结构: 模型的结构对它的特征提取和表征能力有显著的影响。现有的大模型一般是基于Transformer的。Transformer中的注意力机制对学习无线特性也很有价值,特别是对刻画空域、时域和频域的相关性。此外,受物理学启发的无线AI方法也值得关注,如用于学习高维信道结构的多维循环神经网络和用于拟合电磁波相位快变特性的周期激活函数。

B. 设计适合无线语境的目标函数:目标函数的设计会显著影响智能的表达方式。大模型技术有两种常用的目标函数:自回归学习和掩码学习。自回归学习非常适合用于描述在时间上连续发生的通信过程,因此也已经被用于信道预测等任务。掩码学习,即掩盖部分输入并驱动模型推断被遮蔽的信息,这种方式有利于增强学习过程的监督性。同时,以被遮掩的数据模拟部分输入,可以增强模型在有限交互中的推理能力以及模型的鲁棒性。另外,也可以使用掩码进行址信息嵌入,使模型能够提供多址服务。

3) 在无线网络上进行集中与分布式训练

8492734f9eb3472e817226362b8421d9.png

816c06692d785059c0db57b0b215d476.png

feee97a9cd456a1cb0e714004aabb4f1.png

A. 以联邦学习串联多数据节点:联邦学习使用模型或梯度交换代替数据交换,这对于保护数据隐私、解决数据孤岛和调动边缘设备的计算资源很有意义。此外,由于无线大模型的训练涉及大量的设备和数据节点,异步和分层的方案尤为重要。

B. 以分割学习组合多计算设备:将大规模模型拆分到多个设备上进行训练,将有助于调动无线系统中小型计算设备的计算能力。特别是将空中计算与分割学习相结合的框架,不仅方便了在无线系统进行分割学习,而且在训练中天然地引入了无线噪声,以锻炼模型的鲁棒性。

4) 低开销、低延迟且无缝地部署于无线系统

0677a1de7234725ff35fc7fc9c8c0d39.png

836ae66e7ee542d6158b03e468768557.png

b45d71307dbfc564b6d5c119ec566135.png

A. 参数量化:优化推理的一种方法是简化模型,比如参数量化以降低模型复杂度。虽然会略微降低推理的准确性,但适当的量化方法将显著降低推理延迟以及相应的存储及内存开销。

B. 样本自适应推理:另一种降低推理成本和延迟的方法是进行样本自适应推理。如果某一层/子模块的推理结果可信度较高,则可以停止前向计算过程。这使得推理可以根据样本的难度来自适应地调整每个样本的计算量。

C. 集成智能的计算、射频和组网:无线大模型需要与现有的无线系统,特别是必要的射频硬件以及组网技术相协调,才能充分释放其价值。在射频组件和智能计算单元之间建立多层次的信息链路,可以充分实现交互的智能化,减少总推理延迟。此外,与软件定义网络等先进网络技术的协同对于将无线大模型应用于智能调度和大规模接入也很有价值,因为灵活的网络架构可以便利智能调度方案的实时部署。

bb92fd6e2bc234ae5660738d1b28d473.gif

六.结语和一些建议

文中对6G无线大模型进行了展望,指出了其所面临的机遇、挑战和未来的研究方向。人工智能技术的发展与无线系统的演进之间的碰撞十分令人期待。最后,我们提供了一些研究思路上的建议:

1. 无线大模型研究的核心目标不是扩展神经网络的规模,而是建立一个多任务和多场景通用的智能模型和部署范式。

2. 相关研究应格外注意无线网络的特殊性所带来的额外约束,使AI的优势能够真正在无线系统中得到施展。

3. 软件和硬件的协同发展是不可缺少的,一个能够无缝衔接计算和通信的无线系统对于支撑无线大模型是必不可少的。

本文首发 6G无线AI 公众号。

c8553d1d07c4a6ece713d521b89a3794.png

如果您对边缘云、算力网络、边缘AI、垂直行业边缘计算应用场景感兴趣,诚挚邀请您参加6月22日在深圳举办的2024全球边缘计算大会·深圳站,相信边缘的力量!预见·边缘大模型!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值