一文看懂通信中的大型人工智能模型的基础、应用与挑战!

6G无线通信旨在构建无处不在的智能互联世界,提供全新通信体验。大型人工智能模型(LAMs)规模远超传统AI模型(参数可达数百亿甚至数万亿),展现出卓越认知能力,包括强大泛化能力、下游任务高效微调能力以及处理未见过任务的涌现能力。因此,LAMs可高效为各类通信应用提供AI服务,成为应对未来无线通信系统复杂挑战的重要工具。

本研究全面综述了LAMs在通信中的基础、应用及挑战。首先,介绍基于AI的通信系统现状,强调融入LAMs的动机并总结其主要贡献;接着,概述LAMs在通信中的关键概念,包括Transformer、扩散模型和Mamba等主要架构,探讨LAMs的分类,如大型语言模型(LLMs)、大型视觉模型(LVMs)、大型多模态模型(LMMs)和世界模型,考察其在通信中的潜在应用;此外,涵盖LAMs在通信系统中的训练方法和评估技术;最后,介绍思维链(CoT)、检索增强生成(RAG)和智能体系统等优化策略,讨论LAMs在物理层设计、资源分配与优化、网络设计与管理、边缘智能、语义通信、智能体系统及新兴应用等不同通信场景的研究进展,分析当前研究的挑战并介绍未来研究方向。

1、 引言

随着新技术不断涌现,通信系统的复杂性和多样性逐步提升,对系统效率、稳定性和智能化的需求也日益增长。普适智能是6G的关键愿景之一,致力于为网络及其用户提供实时AI服务,实现随时随地的AI功能。为达成这一目标,6G网络架构需深度融合信息、通信和数据技术,构建涵盖计算、数据、AI模型和通信全生命周期的综合资源管理框架。目前,AI技术已从深度学习时代发展到大型人工智能模型(LAMs)阶段,如大型语言模型(LLMs)、大型视觉模型(LVMs)、大型多模态模型(LMMs)和世界模型等。LAMs的发展历程如图1所示。这些模型具备强大认知能力,能够为不同通信应用场景提供高效AI服务,成为应对未来无线通信系统复杂挑战的有力工具。在此背景下,LAMs在通信中的应用已成为研究热点。本文将全面综述LAMs在通信中的基础、应用及挑战等相关内容。 img

图1:LAMs 的发展历程

1.1 背景

6G 致力于构建智能互联世界,提供全新通信体验。国际电信联盟(ITU-R)在 2030 年国际移动通信(IMT 2030)中,定义了沉浸式通信等六种典型场景。实现 6G 愿景依赖智能反射表面、太赫兹通信等新型技术,但这些技术使通信系统面临性能接近理论极限、难以适应复杂场景等挑战。将 AI 与通信结合是破局关键,传统机器学习等方法已在 5G 广泛应用,下文将回顾 AI 与通信集成的发展历程。

以下是简洁化改写后的内容,保留了原意:
1、深度学习辅助通信: 深度学习的迅速发展为解决无线通信关键挑战奠定基础。应用深度学习技术,通信系统在性能和效率上达到新高度,不仅提升了智能操作能力,也为未来通信技术创新铺路。但在动态、不确定环境中,深度学习泛化能力有限,通信系统在适应性优化和学习方面仍面临挑战。

2、强化学习辅助通信: 强化学习有效应用于让通信网络实体在给定状态下推导最优策略(含决策或行动)。基于强化学习的通信技术在解决策略优化、效率提升及动态环境中性能改进等关键问题上潜力巨大,为通信系统持续优化和自适应学习打下坚实基础。

3、生成式AI辅助通信: 随着AI技术不断进步,特别是以Transformer模型为代表的生成式模型发展,社会快速迈入生成式AI(GAI)新时代。GAI的发展给通信领域带来新机遇。生成对抗网络(GAN)、Transformer和扩散模型等生成模型,能更准确学习信息内在分布,生成和决策能力更强,显著提升通信系统性能和效率。不过,通信系统日益复杂,通信环境动态变化,GAI在高维和复杂数据生成任务中可能面临模式崩溃和灾难性遗忘等挑战。

1.2 动机

1、定义: LAMs 是人工智能前沿进展的代表,具备先进的生成架构,参数规模达数百亿甚至万亿级。这些模型认知能力堪比人类,可处理复杂多样的数据生成任务。依据处理数据的模态,LAMs 涵盖 LLMs、LVMs、LMMs 以及世界模型。近年来,GPT、Sora、LLaMA、Gemini 等知名 LAMs,变革了自然语言处理(NLP)、计算机视觉等多领域的工作流程。LAMs 在人工智能中的作用如图 2 所示。
img

图2:LAMs 在人工智能中的作用

2、LAMs与GAI的区别:相较于其他生成式AI模型,LAMs在规模和能力上优势显著。GAI模型专注生成新数据,但LAMs规模更大,参数量可达数百亿甚至万亿,泛化能力更强,处理任务的适应性和灵活性更高。此外,LAMs具备上下文学习、思维链、反思和涌现等新兴能力,可快速适应下游应用,无需针对特定任务再训练。

3、LAMs与预训练基础模型的区别:预训练基础模型虽经过广泛预训练,但未针对特定任务调整,易产生幻觉,需进一步微调才能发展为LAMs。如基于语言的预训练基础模型,常需指令微调和基于人类反馈的强化学习等额外过程,才能成为功能完备的大语言模型。相比之下,LAMs可在特定领域数据集(如通信领域)进一步优化,有效缓解预训练基础模型的幻觉问题,更高效处理各类通信任务。

因此,将LAMs与通信结合,具有以下显著优势:

  • 卓越的全局洞察力与决策力:未来通信系统受设备移动、流量波动等动态环境影响,传统AI方法依赖局部特征易陷局部最优,难学长期时空特征。而LAMs凭借先进架构和海量参数,可从全局捕捉网络特征,适应多尺度时空依赖,稳定决策,且无需重新训练,能精准预测流量、分配资源。
  • 强大的鲁棒性与泛化力:未来通信系统需支持多类设备及多种管理策略,传统AI方法集中学习特定任务特征,在多任务适应性和鲁棒性上受限。LAMs通过多数据、多任务训练,泛化能力强,可在新场景有效决策,还能利用丰富数据捕捉复杂模式,在移动边缘计算中设计通用卸载模型,优化任务与资源。
  • 深刻的理解与涌现力:未来通信系统需为多样场景定制方案,传统小模型适用性有限。LAMs具备出色的上下文学习能力,能分析用户需求偏好,理解多场景,以少样本甚至零样本提供个性化服务,还拥有涌现能力,可执行高级认知任务。

1.3 相关调查研究

表1对比了本研究与现有相关调查研究的异同。现有调查研究常聚焦于LAMs基本原理及关键技术,对不同类型LAMs结构和特征分析不足,对最新应用覆盖也不充分,尤其缺乏对除LLMs外其他LAMs在通信中应用的回顾。尽管这些研究对探索LLMs和GAIs在通信中的应用贡献显著,但仍有改进空间。现有调查研究的局限性如下:

1、模型覆盖面有限:多数现有调查主要围绕LLMs(如GPT和LLaMA),对其他类别LAMs(如LVMs中的Segment Anything Model (SAM)、DINO,LMMs中的Composable Diffusion (CoDi)、ImageBind,以及世界模型中的Sora、Joint-Embedding Predictive Architecture (JEPA) 等)关注不够。这些研究缺少统一框架来理解不同类型LAMs的多样架构、训练范式和对齐策略,在通信领域的模型全景视角不完整。

2、应用场景覆盖不全:尽管以往调查研究对LLMs在通信中的具体应用提供了有价值的见解,但对更广泛应用场景的覆盖有限。尤其是对其他类型LAMs在物理层设计、资源分配、网络管理、边缘智能、语义通信和智能体系统等通信任务中的作用和潜力探讨不足。此外,缺乏对不同模型在这些场景中适用性、技术特性和协作策略的系统比较,不利于全面理解LAMs在通信领域的潜力。

表 1:本研究与现有研究的对比分析

img

1.4 贡献

本研究通过系统分析文献,构建 LAMs 在通信领域的知识框架,包括基础、应用、挑战与未来方向,图 3 展示论文结构。主要贡献如下:

1、通信中 LAMs 基础:介绍 Transformer、扩散模型等关键架构,分类 LLMs、LVMs 等类别,探讨预训练、微调等方法,阐述通信问答评估等评估方式,以及 CoT、RAG 等优化技术,详见第二节。

2、通信中 LAMs 应用:概述 LAMs 在物理层设计、资源分配等场景的研究进展,分类总结并介绍代表性工作,展示研究现状与前景,详见第三至第九节。

3、通信中 LAMs 研究挑战:分析 LAMs 面临的问题,如数据标注质量低、隐私成本限制数据可用性,难以融入领域知识,存在生成性幻觉等可靠性问题,在动态环境适应性与资源受限场景部署也有局限,详见第十节。

img

图 3:综述的整体结构框架

表 2:常用缩略词列表

img

2、LAMs在通信中的基础

相较于传统AI和机器学习模型,LAMs凭借数百亿至万亿级参数与先进架构构建,经大规模预训练获得强大多任务泛化能力。其具备卓越认知和多模态推理能力,能通过上下文学习、微调快速适配下游任务,且涌现能力使其可处理未训任务。这种特性让LAMs在未来智能通信系统开发中优势显著。下文将阐述LAMs在通信领域的基础内容,涵盖关键架构、模型分类、训练评估及优化方法。

2.1 LAMs的关键架构

LAMs通过优化创新,在复杂数据和任务处理上能力卓越,其关键架构对成功应用至关重要,推动了性能提升与技术发展。本节介绍LAMs关键架构及研究进展:

1、Transformer模型: Transformer是一种由Vaswani等人于2017年提出的新型神经网络架构。Transformer架构的主要特征在于完全依赖于注意力机制,消除了传统序列数据中的顺序依赖,允许模型并行处理输入序列。与传统的循环神经网络(Recurrent Neural Network,RNN)相比,Transformer在处理长距离依赖问题时表现更优,特别是在自然语言处理任务中。Transformer的工作流程如下:

  • 输入嵌入与位置编码: Transformer通过嵌入层将输入序列中的每个词转换为高维向量,从而表示其语义信息。然后,位置编码被添加到这些词向量中,以使模型能够识别序列的顺序和感知序列中的关系。

  • 编码器中的多头自注意力机制: 处理后的词向量进入编码器的多头自注意力层。自注意力层通过查询、键和值计算注意力权重,确定每个词与其他词的相关性,并捕捉序列中的全局依赖信息。输出随后通过前馈神经网络进一步处理,并应用残差连接和层归一化,以增强模型训练的稳定性和效率。

  • 解码器中的生成与输出: 由编码器生成的隐藏状态向量被传递到解码器,解码器首先处理先前生成的输出序列部分,以捕捉当前序列的内部依赖关系。随后,交叉注意力机制将解码器的当前状态与编码器的隐藏状态进行融合,根据输入序列生成新的输出。最后,经过输出层处理后,解码器生成最终的输出序列。

2、扩散模型: 扩散模型是一种基于概率扩散过程的生成模型,由Sohl-Dickstein等人于2015年提出。扩散模型的主要特点是通过逐渐向数据中添加噪声,然后学习逆去噪过程来生成数据。该模型在生成高质量、详细的图像方面表现出色,特别是在处理复杂的图像生成和信号恢复问题时。扩散模型的工作流程如下:

  • 正向扩散过程: 正向扩散过程通过逐步向数据添加高斯噪声,将数据映射到接近标准正态分布的状态。这个过程逐渐破坏数据,使数据越来越模糊,最终形成一个高噪声状态。每一步的噪声添加是逐渐进行的,逐步掩盖了数据原始的结构信息。

  • 反向扩散过程: 在反向扩散过程中,模型通过逐渐去除噪声,将数据从高噪声状态恢复到原始数据的状态。这个过程通常通过训练神经网络来逼近反向扩散过程的概率分布。网络学习如何逐步从噪声中恢复数据,以生成与原始数据相似的新样本。这个步骤是生成过程的关键,使模型能够有效地“重建”从噪声中恢复的数据。

3、Mamba模型: Mamba是一种高效处理长序列数据的生成架构,由Gu等人于2022年提出。Mamba的主要特点是高效处理长序列数据。它允许模型通过基于输入数据的选择机制,聚焦于相关信息并过滤掉不必要的部分。同时,Mamba采用了硬件感知计算算法,专门优化了在GPU上的处理性能,从而显著加速了计算过程。Mamba模型擅长处理高维度、长序列的复杂数据,如自然语言、视频或时间序列任务。通过优化数据流处理和资源分配,它能够有效减少通信延迟并提高系统性能。Mamba架构的工作流程如下:

  • 输入处理与投影: 输入数据(如文本、图像、时间序列等)被分割成多个碎片(标记或补丁),并通过线性投影层转换为向量表示。此步骤类似于其他深度学习模型的预处理过程,用于将输入映射到高维空间。

  • 选择机制: 状态空间是描述模型动态行为的变量集合。Mamba使用高效的选择机制,根据输入数据动态调整状态空间的参数。该机制使模型能够过滤掉无关信息,仅保留关键信息,从而实现内容感知建模。

  • SSM计算: 状态空间模型(State Space Model,SSM)计算是使用SSM对输入数据进行建模并生成输出的过程。离散化的SSM方程用于计算输入数据,包含状态方程和观察方程。状态方程描述状态变量随时间变化的过程,观察方程描述如何从状态变量生成观察变量。Mamba架构利用这些方程学习序列数据中的复杂模式,并生成高质量的输出。

  • 输出生成: 当SSM完成输入处理后,Mamba将输出传递给完全连接层或其他与任务相关的层(如分类器或生成器)以生成最终输出。

2.2 LAMs的分类

如表3所示,我们根据处理的数据类型将LAMs分为以下几类。尽管以往研究提出了其他分类方法,但我们基于数据类型的分类提供了一个更加专注且实用的框架,更适用于解决通信系统中的多样化挑战,如处理不同模态、优化资源分配和提高各种通信任务中的系统效率。

表 3:LAMs及其在通信中的应用分类

img

1、LLM: LLM是一个具有大量参数和复杂架构的自然语言处理(Natural Language Processing, NLP)模型。它通过在大量文本数据上进行预训练,学习语言的结构和语义。这些模型能够生成自然流畅的文本,并执行各种语言任务,如翻译和问答。LLM通常基于深度学习架构,如Transformer,这些架构可以有效捕捉长程依赖。它们通过优化复杂的损失函数来调整内部参数并提升性能。LLM包含以下技术特点:

  • 语言理解与生成: LLM在处理文本数据时展现出强大的语言理解和生成能力。通过对大规模文本的预训练,它们学习丰富的语言模式和知识,能够理解复杂的语言结构和上下文。LLM不仅能够识别和解释单词、短语和句子的含义,还能捕捉语言中的细微差别,如语气和情感。在生成文本时,它们创造连贯且富有创意的内容,保持语法和语义的准确性,并具备多语言翻译能力,展示了跨语言理解的潜力。

  • 记忆与推理能力: LLM因其卓越的记忆和推理能力而广泛应用。通过对大量文本数据的深度学习,它们能够记住和理解丰富的语言知识和事实信息,并能在不同上下文中保持一致性和连贯性。该模型不仅掌握词汇和语法,还理解复杂的上下文和长距离依赖关系。在推理方面,LLM能够基于文本进行逻辑推理,推断隐含含义、因果关系和结论,处理多步骤推理任务,并在一定程度上模拟人类思维过程。它们利用记忆中的信息进行推理和预测新情况,生成连贯且合逻辑的文本,使其在总结生成、问答和文本分析等任务中表现出色。

经典的LLM包括GPT系列、Gemma系列和LLaMA系列等。这些模型具有庞大的参数量,能够有效处理和生成自然语言文本,同时在各种NLP任务中展现出卓越的表现。以下是三种经典LLM的详细介绍。

  • GPT系列: GPT系列是OpenAI开发的,代表“生成预训练变换器”(Generative Pretrained Transformer)。这些模型通过在大量文本数据上进行预训练来学习语言模式并生成自然语言。自GPT-1推出以来,GPT模型经历了多个版本的演变,包括GPT-1、GPT-2、GPT-3、GPT-4和OpenAI o1。最初的GPT-1于2018年发布,侧重于文本生成,通过无监督学习从大量文本数据中学习语言模式。2019年发布的GPT-2将参数数量从1亿扩展到15亿,从而使得文本生成更加连贯,并能够处理更复杂的任务。随后,GPT-3于2020年发布,参数增加至1750亿,展示了强大的少量样本学习能力,使其能够执行翻译、问答和编写代码等任务,而无需微调。2023年发布的GPT-4引入了多模态能力,不仅可以理解文本,还可以理解图像,并在推理能力、逻辑性和连贯性方面显著提升,使其能够应对复杂的推理问题。2024年,OpenAI发布了o1模型,相较于之前的LAMs,它展示了出色的反思推理能力。通过对复杂问题进行多层次分析,o1能够生成更加精确和逻辑一致的回答,从而在模糊或不确定的情况下有效进行自我纠正和反思,增强了其在实际应用中的可靠性和智能性。GPT系列的进步为NLP和AI的发展开辟了新的可能性。

  • Gemma系列: Gemma系列由Google开发,包括Gemma 1和Gemma 2。Gemma 1于2024年发布,提供两个不同规模的版本:20亿和70亿参数,适用于各种计算环境和应用需求。该模型架构基于Transformer解码器,并引入了多项技术改进,如多头注意力机制、旋转位置嵌入(Rotary Position Embedding,RoPE)和GeGLU激活函数,使模型展现出强大的上下文理解能力,在多样的文本生成任务中表现出色。Gemma 2于2024年推出,提供了90亿和270亿参数版本。此模型采用了增强的Transformer架构,包括局部和全局注意力的交替使用,以及组查询注意力技术,从而提升了模型的语言处理能力。与Gemma 1相比,Gemma 2在参数规模和性能上都有显著的提升。

  • LLaMA系列: LLaMA系列是由Meta AI团队开发的基础语言模型,包括LLaMA-1、LLaMA-2和LLaMA-3。LLaMA-1和LLaMA-2分别于2023年发布。LLaMA-1系列包含多个不同规模的模型,参数从7亿到65亿不等。与之前的语言模型相比,LLaMA-1通过优化模型结构和引入改进的训练算法,增强了文本生成的准确性和流畅性,同时保持较低的计算成本。LLaMA-2在此基础上进行显著改进,扩展了模型的规模,提供了700百万、13亿、30亿和70亿参数版本。它通过优化自注意力机制和算法,增强了模型的上下文理解能力。LLaMA-3于2024年发布,进一步扩大了参数规模,提供了80亿和700亿参数的版本,并加入了额外的预训练数据,展示了在基准测试中的优异表现。

2、LVM: LVM是一种基础模型,用于处理和理解视觉数据。它通常采用CNN和Transformer架构。LVM通过大量图像学习丰富的视觉特征,并且在图像分类、目标检测、图像分割和生成等任务中展示了高精度和强大的泛化能力。随着持续的发展和优化,LVM在推动图像处理技术的进步中扮演着重要角色。LVM具有许多技术特性,如特征表示学习和支持多种视觉任务,具体如下:

  • 特征表示学习: 在LVM中,特征表示学习是自动提取和学习图像中重要特征的核心技术之一。此过程主要依赖CNN和ViT来完成。CNN首先通过多层卷积和非线性激活函数提取局部特征,然后通过全连接层或池化操作将这些局部特征整合成全局特征。Transformer架构通过自注意力机制进一步增强特征表示能力,捕捉图像中的长程依赖关系和复杂上下文信息。通过大规模预训练和精细调整,LVM能够优化特征表示,并显著提高视觉任务的性能。

  • 支持多种视觉任务: 支持多种视觉任务是LVM的一个重要特性。通过深度学习技术,LVM可以支持多种视觉任务,在广泛的应用场景中发挥作用。这些任务包括图像识别、目标检测、场景解析、图像分割、图像生成、图像编辑和视频分析。它们能够识别和理解图像中的物体和场景,定位物体的位置和大小,分析物体之间的关系,分割图像区域,创建或修改图像内容,以及处理视频中的动作和事件。此外,LVM还支持3D重建,增强虚拟环境中的视觉体验。

经典的LVM包括SAM系列、DINO系列、Stable Diffusion系列等。以下是这些LVM的详细介绍。

  • SAM系列: SAM是Meta AI开发的LVM,旨在高效执行图像分割任务。SAM系列包括SAM-1和SAM-2。SAM-1于2023年发布,其核心技术是基于自注意力机制的深度学习架构,能够识别图像中的任何物体,并以高分辨率精细化物体的边界。该模型设计适用于广泛的应用场景,不仅可以处理常规的目标分割任务,还能处理复杂的多目标分割和细节处理任务。SAM-2于2024年发布,在多个方面进行了改进,进一步提升了图像分割的性能。首先,SAM-2优化了分割精度,特别是在处理复杂场景和小目标时,能够更准确地识别和分割多种物体。其次,SAM-2在模型架构上进行了升级,引入了更先进的深度学习算法和优化的自注意力机制,使其能够更有效地捕捉图像中的细节和长程依赖关系。此外,推理速度也得到了提升,尤其在需要实时响应的场景下,处理效率更高。

  • DINO系列: DINO系列是由Meta AI研究与Inria联合开发的无监督视觉特征学习模型,旨在通过大规模精心策划的数据集生成通用的视觉特征,无需进行微调。该系列模型包括DINO V1和DINO V2。DINO V1于2021年发布,采用Transformer架构并采用对比学习方法。通过输入来自不同视角的图像进行处理,DINO V1能够学习识别和区分图像中的不同元素和结构。这种方法使得DINO V1能够在无标签的图像数据上进行预训练,并生成适用于各种视觉任务的强大图像表示,如图像分类、目标检测等。DINO V2于2023年发布,相比DINO V1,DINO V2在多个方面做出了显著改进。DINO V2采用了更先进的架构,扩大了模型规模,并使用了更多的计算资源,从而提高了特征表示的准确性和处理复杂视觉任务的能力。对比学习策略和自监督机制得到了优化,提高了其在处理不同图像类型时的鲁棒性和泛化能力。在训练过程中,DINO V2引入了改进的训练技术和数据增强方法,以提升其在复杂场景和小目标处理中的表现。

  • Stable Diffusion系列: Stable Diffusion系列是由Stability AI开发的高质量图像生成模型。这些模型使用扩散模型技术,广泛应用于图像生成、图像恢复和图像转换等任务。该系列包括Stable Diffusion V1、Stable Diffusion V2和Stable Diffusion V3。Stable Diffusion V1于2022年发布,能够通过大量训练数据和扩散模型技术生成精美多样的图像。该模型标志着图像生成领域的一个重要突破,具备在各种场景中生成高分辨率图像的能力。随后,Stable Diffusion V2于2022年发布,并带来了更显著的改进。该版本采用了更新的生成技术,支持更高分辨率的图像,并在处理复杂场景和细节时表现更好。Stable Diffusion V3于2024年发布,相较于V2,Stable Diffusion V3用修正的傅里叶变换器(Revised Fourier Transformer**,** RFT)架构替换了V2的U-Net骨干,大大提高了图像和文本编码处理能力。Stable Diffusion V3使用三条芯片编码轨道(即原始文本编码、转换后的文本编码和图像编码),从而改善了与图像的多模态交互,使得生成的图像更加精细、上下文相关,特别是在处理复杂提示时。

3、LMM: LMM能够同时处理和理解来自不同模态的数据,如视觉、语言、触觉和听觉。这些模型通过将各种模态的特征在统一的高维空间中进行融合,实现在多模态信息的综合处理和推理。它们利用先进的神经网络架构,如Transformer和扩散模型,从每种模态中提取特征,并通过对比学习和自监督学习等技术优化它们的表示。通过在多模态上进行训练,这些模型能够理解并关联不同模态之间的语义关系,从而在处理复杂的多模态数据时表现出优越的性能,并提供智能、高效的解决方案。与视觉语言模型(Vision-Language Model,VLM)不同,LMM支持超越视觉和文本的模态。LMM在处理多模态信息方面表现出强大的能力,其核心技术特性是跨模态融合和多模态表示学习:

  • 多模态表示学习: 多模态表示学习是LMM的一项重要技术。它将图像、语音、文本等不同模态的特征表示融合到一个统一的高维空间中。首先,LMM使用ViT来提取图像特征,使用Transformer来提取文本和语音特征。然后,这些高维向量通过拼接和加权求和等方法进行融合,形成统一的特征表示。这种融合使得LMM能够更好地理解和关联来自不同模态的信息,从而提高多模态任务的表现。

  • 跨模态融合: LMM通过跨模态融合技术将文本、图像、音频和视频等多种数据类型整合在一起,进而实现更深层次的理解和分析。这些LMM可以同时处理来自不同模态的数据,并学习它们之间的关系。例如,LMM可以将图像与相关文本结合,生成更丰富的描述;在视频分析中,LMM能够理解视频中的视觉内容、语音信息和文本信息。此外,这些LMM还可以进行跨模态推理和预测,例如根据文本生成图像或音频。这些能力使LMM广泛应用于NLP、计算机视觉、语音识别等领域。

LMM集成了许多先进的模型架构,能够处理和理解不同模态的数据。以下是三种LMM的详细介绍。

  • CoDi系列: CoDi系列由Microsoft Azure和北卡罗来纳大学开发,是一种创新的多模态生成模型。该系列包括CoDi-1和CoDi-2。CoDi-1由Microsoft于2023年发布,旨在提高图像生成的准确性和灵活性。CoDi-1利用条件扩散模型技术,通过将特定的条件信息(如文本描述、标签或其他输入数据)与图像生成过程结合,精确控制生成结果。CoDi-2于2024年发布,相比于CoDi-1,CoDi-2在多个方面进行了显著改进,进一步提升了图像生成的能力和效果。首先,CoDi-2引入了增强的条件控制机制,使得生成的图像能够更准确地符合复杂的条件输入。此改进包括更灵活的条件编码方法和更精细的条件处理策略,从而提供更高的控制精度。其次,CoDi-2通过采用更先进的扩散技术和优化的网络设计,提升了模型的图像质量和细节丰富性。此外,CoDi-2还引入了改进的数据增强方法和优化的训练技术,使图像生成的速度和稳定性得到了提升。

  • Meta-transformer: Meta-transformer是一个多模态学习框架,旨在处理和关联来自不同模态的信息。它使用固定的编码器实现多模态感知,而无需配对的多模态数据。该框架由三个主要组件组成:统一的数据分割器,将各种模态的数据映射到共享的潜在空间;模态共享编码器,提取高级语义特征;任务特定的头部。Meta-transformer能够统一处理12种模态的数据,如自然语言、图像、点云、音频、视频、红外、超光谱、X射线、时间序列、表格、惯性测量单元(Inertial Measurement Unit, IMU)和图形数据。其主要优势在于将不同模态的数据转换为统一的特征序列,使用共享编码器提取特征,减少了跨模态对齐的复杂性,并提高了训练的灵活性。

  • ImageBind: ImageBind是一个先进的LMM,旨在通过共享嵌入空间集成来自不同模态的数据。该模型能够处理来自六种不同模态的数据,如图像、文本、音频、深度、热成像和IMU数据。其创新之处在于通过对比学习实现跨模态对齐,而无需显式配对数据。通过对比学习,将来自不同模态的数据映射到统一的表示空间,从而增强了模型的泛化能力和跨模态理解能力。ImageBind在多模态检索、分类和生成任务中表现出色,特别是在处理未对齐数据时。

4、世界模型: 世界模型是一种抽象框架,用于描述和模拟现实世界的现象,旨在创建能够理解和模拟环境的智能系统。世界模型主要由两个关键组件组成:环境模拟器和控制器。环境模拟器负责构建一个能够预测环境状态和行为的模型,通常通过深度神经网络实现。这些网络经过训练,能够理解环境的动态特性,并生成未来状态和奖励的预测。控制器利用该模拟器做出决策,并通过在模拟环境中训练和优化来提高在现实环境中的表现。世界模型通过提供模拟场景,帮助LAM(语言-行动模型)在复杂和动态的环境中进行泛化和适应,支持LAM的学习与决策。与数字孪生不同,后者主要用于实时复制现实世界中的物体或系统,世界模型更侧重于在虚拟环境中模拟和训练LAM 。以下是世界模型的详细特点介绍:

  • 长期规划和认知决策: 世界模型能够模拟和预测复杂系统的动态变化,并做出有效的决策。长期规划包括从历史数据中学习模式,并预测未来趋势,以指导资源配置和行动选择。世界模型能够评估不同策略的长期影响,并帮助决策者理解不同选择,制定可持续的计划。它还可以模拟不同场景中的决策过程,提供多种解决方案,支持复杂环境中的明智选择。这种动态预测能力在政策制定、资源管理和风险评估等领域具有重要价值。

  • 连续感知与具身智能: 世界模型在连续感知和具身智能方面具有显著优势。它能够实时获取来自环境的信息,并监控和分析气候、交通流量等各类变量,为决策提供最新的数据。具身智能使模型能够将感知信息与物理实体结合,模拟实体在环境中的行为和相互作用。这一能力支持更复杂的任务,如自动控制、机器人导航和环境监测,在智能交通、智慧城市管理和灾难预警等领域具有广泛的应用前景。

目前有许多经典的世界模型,这些模型为通信领域的研究提供了新的思路。以下介绍了三种世界模型的特点:

  • Sora: Sora是OpenAI发布的一种开创性文本到视频生成模型 ,展示了显著的涌现能力。它基于预训练的扩散变换器,可以根据文本指令生成高质量的视频,通过逐步去噪和文本提示来引入细节。Sora在多个领域表现出色,包括模拟能力、创造力和可访问性。尽管没有明确的3D建模,Sora展现了3D一致性,例如动态相机运动和长时间一致性,能够模拟物理世界的一些方面和简单的交互。

  • JEPA: 联合嵌入预测架构(JEPA)是一种用于多模态学习的世界模型,旨在通过联合嵌入和预测任务提升对复杂数据的理解。通过将不同模态的数据映射到共享的嵌入空间,JEPA使得模型能够捕捉不同数据之间的潜在关系。具体来说,JEPA在嵌入空间中进行对比学习,优化相似数据的嵌入距离,从而增强对不同模态信息的理解。在JEPA与环境的交互过程中,世界模型可以提供生成的样本和状态变化,JEPA通过这些动态信息进一步调整其嵌入空间的结构和特征,从而在复杂环境中进行更有效的推理。这种交互机制不仅提升了对环境的理解,还增强了JEPA的适应性,使其在多样的现实世界场景中展现出更高的鲁棒性和灵活性。

  • Vista: Vista 是一个先进的世界模型,专注于解决自动驾驶领域中数据规模、帧率和分辨率的限制。它采用了一种新颖的损失函数,以增强对运动实例和结构信息的学习,并设计了一种潜在替换方法,通过历史帧实现连贯的长期预测。Vista还在集成从高层意图到低层动作的控制方面表现出色。经过大规模训练,Vista在多个数据集上的实验中超越了大多数现有的视频生成模型。Vista的训练框架包括两个阶段:高保真未来预测和多模态动作控制学习,可以在不同场景和相机角度下提供高分辨率预测,且质量退化较少。

基于世界模型的通信研究: 世界模型在通信中的应用对6G的发展起到了革命性作用。例如,Saad等人提出了下一代无线系统的革命性愿景,即基于世界模型的AGI原生无线系统。AGI原生无线系统主要由三个基本组件构成:感知模块、世界模型和行动规划组件。这些组件共同形成了常识的四个支柱,包括通过水平泛化处理无法预见的场景、捕捉直观物理学、进行类比推理和补空白。该研究还讨论了AGI原生网络如何进一步支持与人类用户和自主代理应用相关的三种用例:下一代数字孪生的类比推理、认知化身的同步和弹性体验,以及脑级元宇宙体验,举例来说是全息传输。最后,他们提出了一系列建议,旨在激发对AGI原生系统的追求,并为6G及其后的下一代无线系统提供了路线图。

2.3 LAMs在通信中的训练

LAMs在通信中的训练过程包括三个阶段:预训练、微调和对齐。表4提供了这些阶段的综合比较。以下是每个阶段的详细讨论。

表 4:大型模型三阶段学习流程的比较

img

1、LAMs在通信中的预训练: 预训练阶段为LAMs获取专门的通信知识奠定了基础,具体过程如下:LAMs在大型未标注数据集上进行预训练,以学习通用特征,从而提升在通信任务中的表现,减少对标注数据的依赖,并提高知识迁移。预训练的主要方法包括自监督学习和多任务学习:

  • 自监督学习: 自监督学习与无监督学习不同,它使LAMs通过数据的自我生成监督信号来学习特征,方法包括数据转换或掩蔽。过程包括数据预处理、创建代理任务生成自监督信号,之后使用这些内部表示进行训练,类似于监督学习,但没有外部标签。

  • 多任务学习: 多任务学习通过同时学习多个相关任务来提升模型表现。任务共享模型参数,使LAMs能够利用任务之间的关系进行更好的效率和泛化。过程包括定义任务、设计具有共享和任务特定层的模型架构,并确保一致的数据预处理。在训练过程中,共享层捕捉共同特征,而任务特定层则关注各自的目标。

为了提高训练效率和模型性能,研究人员还提出了各种优化策略:

  • 分布式训练: 分布式训练技术使得多个设备协同工作以训练LAMs,需要有效的数据和模型并行策略以提高效率和稳定性。像Megatron-LM和DeepSpeed这样的框架专为分布式训练设计,支持高效的数据和模型并行 。

  • 学习率调度: 动态学习率调整在训练过程中起到了重要作用,能够帮助LAMs识别最佳参数。常见的策略包括余弦退火和循环学习率。

  • 梯度裁剪: 该优化技术通过在反向传播过程中对梯度进行缩放或截断,避免梯度爆炸或消失。常见的方法包括绝对值裁剪和基于范数的裁剪,可以约束或减少过大的梯度。

2、LAMs在通信中的微调: 微调阶段对预训练的LAM进行优化,以使其更好地适应特定的通信数据集。该过程提升了模型在通信应用中的理解、泛化、准确性和效率。电信指令微调技术训练LLMs基于自然语言电信指令生成准确的输出。它使用指令与响应配对,指导模型执行任务,增强其理解能力并处理新任务。指令数据集通过高级LLMs如GPT-4和LLaMA3生成,基于电信文档,满足各种任务需求:

  • 多项选择题回答: 从一组多项选择题中选出所有正确答案。
  • 开放式问题回答: 根据标准、研究论文或专利,提供关于电信相关问题的开放式答案。
  • 技术文档分类: 将各种技术文档的文本分类到相关的工作组中,如3GPP标准中的不同工作组。
  • 数学建模: 根据系统模型和问题陈述的文本描述生成准确的数学方程式,如信道模型。
  • 代码生成: 为特定任务或功能生成脚本或函数。
  • 填充中间: 根据上下文和目标功能,完成不完整的脚本。
  • 代码总结: 总结给定脚本的核心功能,识别脚本是否与电信相关。
  • 代码分析: 详细分析函数背后的操作逻辑,强调与电信相关的知识和原则。

基于设计的指令微调数据集,LAMs在通信中的微调步骤如下:

  • 模型初始化: 在创建指令微调数据集后,选择一个预训练的LAM作为初始模型,确保其具有强大的语言理解和生成能力,适用于通信任务。

  • 模型调整和优化: 使用指令响应对数据集对预训练的LAM进行监督微调(Supervised Fine-Tuning, SFT),学习指令和响应之间的关系,同时调整模型参数。然后,定义一个负对数似然损失函数,衡量模型生成的响应与预期之间的差距。

  • 迭代训练: 通过多次迭代训练,LAM学习基于指令生成高质量的响应。在处理每个批次的指令响应对后,更新模型的参数。

最终评估和应用:训练完成后,对LAM进行评估,确保其在各任务中达到性能标准。然后,将其应用于现实场景中进行实用性和可靠性测试,最后部署到通信应用中。

在LAM微调过程中,存在多种技术,包括LoRA、适配器(Adapters)、BitFit和前缀微调(Prefix Tuning),具体如下:

  • LoRA (低秩适应)是一种高效的微调方法,通过限制权重矩阵的更新范围为低秩子空间,减少了更新的参数数量,从而在不妥协任务性能的前提下,提高了微调效率,减少了计算和存储成本。

  • 适配器是一种微调方法,在LAM的每一层添加小的、可训练的模块,同时保持预训练模型的参数不变。该方法减少了需要更新的参数数量,节省了资源,并支持多任务学习,尤其适用于资源有限的场景。

  • BitFit(仅偏置微调)通过仅更新LAM中的偏置项,显著减少了计算和存储成本。它最小化了参数更新,保持了性能,并能快速适应特定任务,无需对预训练模型进行复杂修改。

  • 前缀微调通过为输入序列添加一个可训练的前缀向量来微调预训练LAM,同时保持模型原始权重不变。通过仅更新前缀,该方法减少了计算和存储成本,使其在适应特定任务时更加高效。

微调阶段帮助LAM更好地理解和执行通信指令,无需显式示例,从而提高其在通信任务中的准确响应能力,增强其在实际应用中的有效性。

3、LAM在通信中的对齐: 对齐微调是一个关键步骤,旨在使**LAM的响应更好地与人类偏好对齐。在通信数据集上经过SFT(监督微调)后,LAM仍然可能生成不理想的响应,例如重复、过短的回复或不相关的内容。关键的对齐技术可以解决这些问题。

对齐微调通过引导LAM生成更准确和合理的响应,提升模型性能。RLHF是一种结合人类反馈和传统强化学习的对齐微调方法,用于优化LAM的表现。RLHF在通信任务中尤为有用,因为在这些任务中,决策和输出的可靠性至关重要,它能够更高效地学习复杂任务。RLHF的工作流程通常包括以下几个关键步骤:

  • 环境和智能体构建: 初始化一个基础的强化学习框架,包含环境(对齐任务)和智能体(LAM)。

  • 人类反馈收集:通过互动方式,在智能体执行任务过程中收集来自人类专家的反馈,包括性能评估、建议或修正。

  • 奖励建模: 将人类反馈转化为奖励信号,并使用机器学习训练奖励模型,准确地解释和量化反馈,生成适当的奖励值。

  • 强化训练: 使用奖励模型提供的奖励信号,通过强化学习训练智能体,不断更新策略,逐步优化性能,并更好地与人类期望对齐。

除了RLHF之外,还有一些关键的对齐技术,如基于AI反馈的强化学习( RLAIF)、近端策略优化(PPO)和直接偏好优化(DPO),具体如下:

  • RLAIF是一种改进LAM行为的新方法。与传统的RLHF不同,RLAIF使用AI生成的反馈来优化模型,减少了对大量人工标注数据集的依赖。AI智能体(例如GPT-4)评估模型输出并根据这些评估调整参数,从而提高性能。该过程包括两个步骤:首先,AI智能体通过评估模型的输出生成反馈;其次,使用这些反馈通过强化学习调整模型,逐步提升输出质量。RLAIF更加高效且具可扩展性,消除了对昂贵人工数据的需求。

  • PPO 是一种强化学习方法,旨在稳定优化过程中的策略更新。与传统的策略梯度方法不同,后者需要复杂的计算和约束来防止过大的策略变化,PPO使用“代理目标函数”并限制更新步长。PPO引入了惩罚项,以控制策略变化的幅度,确保更新后的策略与原始策略保持接近。这种方法改善了策略表现,避免了昂贵的约束优化,并实现了更好的收敛性和鲁棒性。

  • DPO是一种强化学习技术,它直接优化模型输出以匹配用户或系统的偏好,无需使用奖励模型。通过在训练过程中引入明确的偏好反馈,DPO避免了传统方法的复杂性,并改善了模型性能。它在需要对模型行为进行精细控制,并有效处理复杂偏好的任务中尤其有效。

2.4LAMs在通信中的评估

LAMs在通信中的评估是一个至关重要的目标,因为关于评估指标的研究不仅影响LAMs的性能,还能深入了解它们在与通信相关任务中的优缺点。选择高质量的电信数据集是进行有效评估的前提。例如,Maatouk等人提出了基准数据集TeleQnA,用于评估LLMs在电信领域的知识。该数据集由10,000个问题和答案组成,涵盖了多种来源,包括电信标准和研究文章。此外,TeleQnA还引入了自动问题生成框架,用于创建该数据集,并在多个阶段融入了人工输入,以确保其质量。一旦选择了合适的基准数据集,就可以进行LAMs在通信中的评估。评估框架涵盖了多个方面,包括通信问答、通信工具学习、通信建模和代码设计。

1、通信问答: 通信问答的评估旨在评估LAMs(如GPT-4)理解和处理通信相关文档的能力。该任务包括从文献、专利和书籍等来源中生成多项选择题和开放式问题,涉及通信技术、协议和网络架构等主题。LAM的表现通过将其回答与标准答案进行比较来衡量,特别关注其对通信知识的理解和应用。

评估过程首先选取相关文献,随后进行数据预处理。LAM根据处理后的内容生成问题,生成的答案随后通过人工验证或与标准答案的自动比较进行准确性验证。通过将模型的回答与正确答案进行比较,评估LAM的表现,重点考察其回答的准确性、理解能力和推理能力。评估指标如精确度、召回率和F1值用于衡量答案的质量,并评估模型在通信问答任务中的整体效果。

2、通信工具学习: 通信工具学习的评估考察LAMs是否能够有效选择并利用通信工具,如现有算法和代码,解决实际任务。这一能力在两个关键领域进行评估:工具选择,指的是模型通过推理选择合适工具的能力;工具使用,指的是模型在任务中利用这些工具以提高任务表现的能力,如将现有的信道模型代码与LAM结合进行信道预测,从而提高通信系统的性能。评估重点关注两个主要方面:模型选择正确工具的能力及其在执行操作时的能力。这包括评估单个工具的表现以及多个工具结合使用时的效果,像toolalpaca等基准测试就评估了LAMs在多工具使用中的整体熟练度及局限性。通过这些评估获得的见解,能够揭示模型在工具选择和应用中的优势与挑战,为未来在通信相关任务中的优化工作提供指导。

3、通信建模: 通信建模的评估重点是评估LAMs在表示和解决与通信系统相关的数学问题的能力。例如,任务如方程补全,其中关键的数学表达式被隐藏,物理推理型LAM必须准确预测缺失的部分。评估首先选择相关的数学模型和方程,确保任务既具挑战性又具有现实通信系统的代表性。

通过将LAM的预测结果与标准答案进行比较,评估其表现,特别关注其准确性和方程的一致性。除了精度外,评估还会审视模型在复杂通信原理方面的推理深度和理解能力。通过将准确性与推理能力的评估结合,提供了一个全面的视角来了解LAM在通信建模任务中的有效性。

4、通信代码设计: 通信代码设计的评估旨在评估LAMs在生成、补全和分析通信相关代码(如C、C++、Python和Matlab等编程语言中的代码)方面的能力。评估任务包括代码生成、代码补全和代码分析,测试模型在生成脚本、补全部分代码以及提供准确的总结或错误分析方面的能力。评估从提供编程场景开始,其中LAM(如OpenAI Codex)需要为信号处理、网络协议实现或数据传输算法等任务生成代码。接着,LAM还会接受代码补全任务,预测并填补缺失部分,确保逻辑一致性和功能正确性。此外,LAM还会接受代码分析任务,解释代码的功能,识别错误并提出优化建议。评估通过将生成的代码与标准答案进行比较来衡量性能,重点考察代码的准确性、完整性和逻辑正确性。模型分析代码的能力也会被评估,以反映其对通信领域特定编程概念的理解。

2.5大模型的优化

为了进一步提高这些LAMs的性能和适应性,研究人员提出了多种优化技术,如CoT、RAG和智能体系统。以下是对这些优化技术的详细介绍。

1、CoT:CoT是一种推理技术,最早由谷歌研究团队在2022年提出。CoT的主要特点是能够将复杂问题分解为一系列逻辑推理步骤,并以线性和结构化的方式进行解决。它特别擅长处理需要多步推理和综合分析的任务,尤其适用于需要模拟人类思维过程的场景,如复杂决策和问题解决。CoT方法的工作流程如下:

  • 任务输入: 模型接收到一个复杂的通信任务或问题,问题可以是自然语言描述、数学方程或逻辑推理题。根据问题的性质,模型确定适当的推理路径,并整合相关的上下文信息来支持推理过程。

  • 逻辑推理: 模型将问题分解为一系列逻辑推理步骤,按步骤进行推理推导。每一步的输出依赖于前一步的结果,从而保证了推理过程的连贯性和系统性。

  • 决策输出: 模型基于推理过程生成逻辑一致的答案或决策。验证机制用于验证结果的正确性和可靠性,确保其准确性和可信性。

2、RAG: RAG是一种集成检索与生成的技术,由Facebook于2020年提出。RAG通过检索和生成两步过程来增强LAM的回答能力,利用检索到的相关文档来提高答案的准确性。RAG能够利用检索模块获取最新和最相关的信息,同时保持LAM强大的语言能力,从而提高答案的准确性和相关性。它擅长处理信息量大但需要大量文本知识的任务,如回答问题、生成详细说明或进行复杂的文本生成。RAG技术的工作流程如下:

  • 信息检索: 从外部知识库中检索与输入内容相关的文档。通过信息检索技术,LAM可以从知识库中筛选出与输入问题最匹配的文档。

  • 信息融合: 将检索到的文档与输入问题拼接,作为LAM的新输入。在信息融合阶段,LAM通过编码器处理文档和输入内容,紧密结合检索到的知识与问题,增强模型对问题的理解和生成能力。

  • 生成输出: 信息融合后的输入传递给LAM,LAM不仅依赖于原始输入,还利用检索到的文档信息提供更丰富、更准确的答案。生成过程确保答案连贯且与上下文相关,从而确保输出的合理性和有效性。

3、智能体系统(Agentic System): 智能体系统是由基于LAM的智能体组成的框架,这些智能体感知环境并协作以实现特定目标。智能体系统的主要特点包括自主性、适应性和互动性。它可以根据环境变化调整行为,并与其他智能体或环境进行交互,以优化决策和任务执行。它擅长解决需要动态响应、复杂决策和任务优化的通信问题。通过模拟人类或生物系统的行为,智能体能够在动态变化的通信环境中高效地完成任务。基于LAM的智能体系统的工作流程如下:

  • 任务理解与规划: 智能体系统解析输入的指令,提取相关上下文信息,并将复杂任务分解为更小、更易管理的子任务。然后,系统制定出执行这些子任务的逻辑计划。

  • 执行与适应: 智能体根据计划执行行动,利用LAM完成生成内容、解决问题或与外部系统交互等任务。智能体持续监控进度,并根据环境变化或意外结果动态调整。

  • 验证与反馈: 智能体系统验证结果,确保准确性和一致性,并提供可靠的输出。过程中的反馈被整合进系统,从而在未来任务中实现迭代改进和性能增强。

2.6 总结与经验教训

1、总结: 本章全面概述了LAM在通信中的关键架构、分类、训练、评估和优化。首先,我们介绍了LAM的关键架构。接着,我们提出了一个更为详细的LAM在通信中的分类体系。随后,我们讨论了通信LAM的训练过程,总结了从预训练、微调到对齐的完整工作流程,并对这三种技术进行了深入的解释。然后,我们介绍了通信LAM的评估方法,对用于评估LAM在通信中表现的标准和指标进行了全面总结。最后,我们探讨了LAM在通信中的各种优化技术。本章为LAM的应用奠定了坚实的基础,并为其未来的发展提供了明确的方向。

2、经验教训: 尽管在LAM在通信中的构建和优化方面取得了进展,但仍然有一些经验教训可以总结。目前的主流架构,如transformer、扩散模型和mamba,展现了出色的建模和推理能力。然而,它们在资源受限的环境、多模态任务以及实时通信应用中仍面临重大困难。这些挑战包括计算复杂性高、收敛速度慢以及训练、评估和部署的难度。在优化策略方面,尽管像CoT、RAG和智能体系统等方法有效增强了模型的推理能力和任务适应性,但在稳定性、一致性和效率方面仍然存在一定的局限性。

img

图4:通信中大模型的应用:大模型可广泛应用于通信领域的多个方面,包括物理层设计、资源分配与优化、网络设计与管理、边缘智能、语义通信、智能体系统以及新兴通信应用场景。

3.LAM在物理层设计中的应用

随着无线通信技术的不断发展,特别是在6G网络需求的背景下,物理层设计面临着日益复杂的挑战。为了应对这些挑战,LAM和GAI模型逐渐成为物理层设计中的关键工具。

3.1 基于LAM的信道和波束预测

随着无线通信系统,特别是在5G以及向6G网络演进的背景下,信道和波束预测对精度和效率的需求显著增加。传统方法在处理现代网络的复杂性和动态性时往往力不从心。近年来,LLM 的突破为解决这些挑战提供了新的思路。例如,Fan 等人 提出了 CSI-LLM,一种用于大规模 MIMO 系统下行信道预测的方法。通过将无线数据与 NLP 任务对接,利用 LLM 对可变长度的历史序列进行建模,特别在高动态下的多步预测中表现出强大的性能。Liu 等人 提出了 LLM4CP,一种使用预训练 LLM 的信道预测方法,结合了信道特性模块和跨模态知识迁移,实现了 TDD/FDD 的准确预测,降低了训练成本,并展现出较强的泛化性和效率。Sheng 等人 研究了毫米波通信中的波束预测,采用 LLM 将时间序列数据转化为文本,并通过 promptas-prefix 技术增强上下文。与传统的 LSTM 模型相比,该方法在高动态环境中显示出更强的鲁棒性和泛化能力。Akrout 等人 回顾了无线物理层中的深度学习,强调了准确性、泛化性、压缩性和延迟之间的权衡。他们指出,过于关注准确性往往会由于泛化能力不足,限制模型在复杂通信场景中的表现。通过分析端到端通信系统的解码任务,揭示了这一权衡对模型实际应用的影响,尤其在 LLM 用于无线通信时,压缩与延迟之间的平衡成为了一个关键因素。

3.2 基于LAM的自动化物理层设计

随着无线网络规模和复杂度的不断增长,智能化和自动化物理层设计的需求变得愈加迫切。LLM 和 GAI 技术正作为解决这一需求的强大工具,为构建自适应和高效的通信系统提供了新的可能性。例如,Xiao 等人 提出了基于 LLM 的 6G 任务导向物理层自动化智能体(6G LLM agents),将 LLM 作为智能副驾驶,借助多模态感知和领域知识,增强了动态任务的理解和规划。通过两阶段训练框架,该智能体能够有效执行协议问答和物理层任务分解。Wang 等人 提出了一个结合了 LLM 和 RAG 技术的物理层设计框架,展示了其在信号处理和分析中的强大潜力。GAI 智能体能够在不同环境下快速生成复杂的信道模型,推动下一代 MIMO 信道建模与估计研究的进展。

3.3 总结与经验教训

1、总结:本章讨论了 LAM 在物理层设计中的应用,展示了其在信道估计、任务分解、信号处理等方面的潜力。LAM 通过其强大的推理能力和多任务学习,显著提高了物理层设计的智能化和自动化水平 。LAM 通过准确建模复杂的数据分布,改善了信道估计和盲信道均衡。LAM 为物理层设计提供了创新的思路和方法,预计将在未来无线通信系统的性能提升和系统优化方面带来突破 。

2、经验教训:从本章中,我们总结了几条重要经验。首先,LAM 在物理层优化中的可解释性有限 。尽管它们可以生成看似有效的优化策略,但通常缺乏严格的数学分析或理论保障,这限制了它们在高可靠性通信场景中的应用。其次,LAM 的训练和推理高度依赖高质量的标注数据,而物理层数据的获取和标注成本较高,这使得数据驱动的 LAM 模型在实际部署中的规模化应用面临困难。因此,提高可解释性和解决数据获取的挑战是未来研究的关键方向。

4.LAM在资源分配与优化中的应用

资源分配与优化是通信网络中的复杂且关键的问题。随着 LAM 技术的发展,其在这一领域的应用逐渐展现出巨大的潜力。以下将讨论 LAM 在计算资源分配、频谱资源分配和能源资源优化中的应用。

4.1 计算资源分配

随着通信网络的复杂度增加,用户对网络服务的需求也越来越高。如何在有限的计算资源下为用户提供高质量的通信服务,成为了一大挑战。基于 GAI 模型和 LAM 的计算资源分配研究是未来的重要研究方向。例如,Du 等人 提出了 AGOD 算法,该算法使用扩散模型从高斯噪声中生成最优的 AIGC 服务提供商(AIGC Service Provider,ASP)选择决策,并结合DRL提出了 D2SAC 算法,提高了 ASP 选择效率,优化了用户计算资源分配。此外,Du 等人 提出了基于 MoE 框架和 LLM 的网络优化方法,利用 LLM 推理管理专家选择和决策加权,实现了高效的资源分配,降低了能耗和实现成本。对迷宫导航和网络服务提供商(Network Service Provider,NSP)效用任务的测试证明了其在复杂网络优化中的有效性。

4.2 频谱资源分配

在当前的通信系统中,频谱资源分配是实现高效可靠数据传输的重要组成部分。随着移动通信技术的快速发展,尤其是 5G 以及即将到来的 6G 时代,频谱资源的需求急剧增加,而可用的频谱资源却非常有限。为了提高频谱利用率并满足用户对高速、低延迟通信的需求,研究人员已开始探索基于 LAM 和 GAI 模型的频谱资源分配方案。例如,Zhang 等人 提出了一个基于 GAI 智能体的框架,使用 LLM 和 RAG 通过互动对话构建准确的系统模型。为了优化这些模型,他们引入了 MoE PPO 方法,将专家网络与 PPO 结合,实现协同决策,提高频谱效率和通信质量。此外,Du 等人 提出了一个基于 GAI 和 DRL 的框架,用于优化 802.11ax Wi-Fi 中的计算卸载和频谱分配。该框架结合 GDM 与 TD3 算法,并使用匈牙利算法进行 RU 分配,改善了带宽利用率、延迟和能耗。

4.3 能源资源分配

能源资源优化在通信网络中同样至关重要,特别是在移动通信和物联网等场景中。传统的能源优化方法通常基于启发式规则或简单算法,这些方法在复杂和动态环境中难以实现最佳结果。研究人员正在积极探索基于 GAI 模型和 LAM 的能源资源优化方案,以实现无线通信中的低能耗和高效率。例如,Xu 等人 提出了一个基于 GAI 的移动多媒体网络框架,旨在实现动态自适应流媒体、智能缓存和能源效率优化,提升多媒体内容分发能力。该框架通过考虑 GAI 模型的价值和其他指标,优化了资源利用率并减少了能耗。Du 等人 提出了一个无线边缘网络框架,利用 AIGC 服务优化能源分配并改善用户体验。通过结合 DRL 算法动态选择最优的 ASP,该框架减少了任务过载和重传,提高了能效和服务质量。仿真结果显示,能源消耗减少,内容质量和传输效率得到提升。

4.4 总结与经验教训

1、总结:本章总结了 LAM 在计算资源分配、频谱资源分配和能源资源优化中的应用。LAM 通过实时预测和分析网络需求,可以智能地分配资源 ,同时,LAM 也能通过学习通信网络中的能耗模式来优化能源使用策略 。

2、经验教训:从本章中,我们得出了一些重要经验。首先,尽管 LAM 能够提高计算资源分配的优化效率,但在资源受限和动态通信环境中,它们的泛化能力有限,可能导致次优甚至不可行的分配策略 。在频谱资源分配方面,尽管 LAM 可以协助提高频谱利用效率,但它们的推理过程通常依赖于复杂的专家网络和调度机制,导致了较大的计算开销,并且难以满足实时要求。关于能源资源优化,LAM 能够通过智能缓存和流量控制降低能耗。然而,在生成动态调度策略时,它们的稳定性和可解释性仍然不足。因此,提升 LAM 在资源分配和优化中的泛化能力,以及减少其计算复杂度,是未来研究需要解决的关键挑战。

5.LAM在网络设计与管理中的应用

LAM 在网络设计与管理中发挥着至关重要的作用。通过生成学习的强大能力,它们可以对网络流量、用户行为和系统性能进行详细分析和预测,并赋能现有网络。

5.1 网络设计

智能网络设计是确保系统高效运行和提供高质量服务的关键。目前,LAM 因其强大的生成和数据处理能力,广泛应用于网络设计中。例如,Huang 等人 提出了一个 AI 生成网络(AI-Generated Network,AIGN)框架,利用 GAI 和强化学习实现自动化网络设计。该框架采用扩散模型学习设计意图,在多重约束下生成定制化解决方案,从而实现智能网络设计。Zou 等人 提出了一个无线多智能体 GAI 网络,利用设备上的 LLM 实现自主组网。多智能体 GAI 集成使网络模型设计、推理、多模态数据处理和资源管理成为可能。Huang 等人 还提出了 ChatNet,一个领域自适应网络 LLM 框架,利用自然语言进行智能网络设计、诊断、配置和安全管理。ChatNet 通过预训练和微调开源 LLM,使其能够理解网络语言,并访问外部工具,如仿真器、搜索引擎和求解器,从而实现任务自动化。

5.2 网络管理

传统的数据处理方法难以满足 6G 网络在海量数据、复杂任务和实时性能方面的要求,而 LAM 的出现为解决这些问题提供了新的思路。例如,Wang 等人 提出了 NetLM,这是一个使用 ChatGPT 进行网络管理和优化的网络 AI 架构。基于 LLM,NetLM 分析网络数据包序列和动态,通过多模态表示学习统一网络指标、流量和文本数据,从而增强数据处理能力,理解网络状态、用户意图以及 6G 网络中的复杂模式。Dandoush 等人 提出了一个将 LLM 与多智能体系统结合的网络切片管理框架。网络切片允许在共享基础设施上创建虚拟网络,但现有方法在处理复杂服务需求时存在困难。该框架使用 LLM 将用户意图转化为技术需求,并通过多智能体系统实现跨领域协作,从而实现高效的切片创建和管理,同时解决数据采集、资源需求和安全等挑战。Yue 等人 提出了一个 LAM 驱动的 6G 网络架构,通过从异构数据中提取洞察,提升管理效率。LAM 自动化操作、维护和推理任务,减少了人工干预。通过边缘计算,LAM 在高并发场景下处理数据,提升了性能和资源调度能力。该研究还解决了数据治理和 6G 网络计算资源需求等挑战。

5.3 总结与经验教训

1)总结:本章总结了 LAM 在网络设计与管理中的应用,包括网络架构设计优化和网络切片管理。LAM 通过其强大的数据处理和生成能力,在 6G 网络中高效处理海量数据,实现智能网络设计与管理。

2)经验教训:从本章中,我们得出了一些重要经验。首先,在网络设计中,尽管 LAM 可以通过学习网络意图自动生成满足多重约束的定制化网络解决方案,但确保设计在多重约束条件下的可行性和稳定性仍然是一个重大挑战。此外,在网络管理中,LAM 可以增强网络状态分析、用户意图理解和数据模式学习的能力,但在处理大规模异构数据和满足实时性能要求方面仍然存在困难。

6.LAM在边缘智能中的应用

LAM 在边缘智能中有广泛的应用场景,能够显著提升边缘计算设备的性能。以下讨论了 LAM 在边缘智能中的三个主要应用方面。

6.1 LAM的边缘训练与应用

由于部署简便且保留了强大的数据处理能力,边缘 LAM 广泛应用于边缘设备。例如,Yu 等人 提出的 Edge-LLM 框架解决了将 LLM 部署到边缘设备时的计算和内存开销问题。该框架使用分层统一压缩(Layered Unified Compression, LUC)技术优化模型压缩,通过自适应层调优减少内存使用,并引入硬件调度来处理不规则的计算模式。Zhang 等人提出的 EdgeShard 框架使用模型分片将 LLM 分布到多个设备上。通过动态规划算法优化设备选择和模型分配,平衡推理延迟和吞吐量。实验结果表明,该框架能够将延迟减少 50%,并将吞吐量提高一倍,为边缘计算中 LLM 推理提供了一种高效的解决方案。Qu 等人回顾了 LLM 与移动边缘智能(Mobile Edge Intelligence, MEI)的集成,提出了 MEI4LLM 框架,以提高边缘环境中的部署效率。该框架涉及缓存、分布式训练和推理等技术,讨论了绿色计算和安全边缘 AI 等未来发展方向,并强调了边缘智能对低延迟和隐私敏感任务的重要性,为 LLM 在更广泛应用场景中的使用提供了理论基础。

此外,Zhao 等人提出了一个结合边缘和终端协作的 LLM 部署框架,采用终端上的串行推理和边缘服务器上的并行推理。这种方式降低了延迟并优化了能耗,提高了不同网络条件下模型性能,提供了一个高效的无线网络中 LLM 部署解决方案。Khoshsirat 等人 研究了在能量受限的边缘设备上进行去中心化 LLM 推理的应用,提出了一个将能量收集集成的推理框架,使分布式设备能够协同进行模型推理任务。Lin 等人 探讨了在 6G 边缘环境中部署 LLM,使用分布式学习、量化和参数高效微调来解决计算负载问题。该研究提出了针对边缘环境的 LLM 训练和推理策略,为 6G 网络中的分布式 AI 提供了研究路径。Rong 等人 提出了 LSGLLM-E 架构,用于大规模交通流预测,解决了道路网络中的时空相关性问题。该方法通过将网络分解为子网络并使用 RSU 作为边缘节点进行计算,减少了中心云的压力。LSGLLM 模型能够捕捉动态时空特征,克服了现有 LLM 在大规模道路网络预测中的局限性。

6.2 边缘资源调度与LAM

边缘设备在计算能力和存储方面面临限制,而 LAM 需要高效的计算、实时响应和低延迟数据传输。这就带来了两个主要挑战:(1)如何有效分配资源,确保 LAM 在边缘设备上的高效运行;(2)如何利用 LAM 的强大优化能力设计改进的边缘资源调度策略。为了解决这些问题,研究者提出了多种解决方案,结合了任务卸载、计算资源和存储资源优化,以增强边缘设备在 AI 任务中的性能。例如,Friha 等人 分析了资源受限环境下基于 LLM 的边缘智能优化,并提出了解决计算和存储限制的策略。模型压缩、内存管理和分布式计算等技术使得 LLM 能够在边缘设备上高效运行。这些优化提高了部署效率,并扩展了 LLM 在个性化医疗和自动化等领域的应用。

Dong 等人提出了 LAMBO 框架,用于基于 LLM 的移动边缘计算(MEC)卸载,解决了传统深度卸载架构中的异构约束和本地感知问题。该框架使用输入嵌入(IE)模型将任务数据和资源约束转换为嵌入,并通过非对称编码器-解码器(AED)模型提取特征,生成卸载决策和资源分配。Lai 等人提出了 GMEN 框架,以增强 6G 时代移动边缘网络的智能性和效率。通过将 GAI 与边缘网络相结合,并使用模型分割等方法,框架将 AI 任务卸载到边缘设备,从而减轻网络负担。Stackelberg 博弈模型被用于优化资源分配,并鼓励边缘设备贡献计算资源,从而减少开销。

6.3 LAM的联邦学习

联邦学习(FL)通过在本地训练模型来保护隐私,并减少对集中式资源的依赖,但传统的小模型能力有限。LAM 的出现,凭借其强大的表示能力,使得 FL 能够处理更复杂的任务而无需集中数据,显著提高了个性化服务和预测精度。例如,Xu 等人 提出了 FwdLLM,这是一种增强移动设备上 LLM 的联邦学习协议,采用了无反向传播的训练方法。FwdLLM 结合了高效的参数微调技术,如 LoRA 和适配器,分配计算负载,提高了内存和时间效率,使得普通商用移动设备也能够进行 LLM 微调。Peng 等人 提出了一个基于 GAI 的个性化语义通信系统,通过个性化本地蒸馏(Personalized Local Distillation, PLD)和自适应全局修剪(Adaptive Global Pruning, AGP)提高了性能。PLD 允许设备根据本地资源选择模型,并将知识蒸馏到更简化的模型中进行 FL。AGP 通过根据通信环境修剪全局模型,降低了能耗并提高了效率。通过这些创新方法,LAM 在个性化 FL 中的应用展示了显著优势。此外,Jiang 等人提出了两种个性化无线联邦微调方法:个性化联邦指令微调(Personalized Federated Instruction Tuning, PFIT)和个性化联邦任务微调(Personalized Federated Task Tuning, PFTT)。PFIT 使用强化学习与人类反馈进行个性化,而 PFTT 结合了全局适配器和 LoRA 以减少通信开销并加速微调,解决了无线网络中的隐私、数据异构性和高通信挑战。

6.4 总结与经验教训

1)总结:本章总结了 LAM 在边缘智能中的应用,包括边缘训练与 LAM 应用、资源管理与调度,以及 LAM 的联邦学习。通过边缘训练和 LAM 的应用,可以有效提升 LAM 在边缘设备上的性能。资源管理与调度通过 LAM 实现动态资源分配 。LAM 的联邦学习能够在没有集中数据的情况下处理更复杂的任务,提升预测精度并增强个性化服务。
2)经验教训:从本章中,我们得出了一些重要经验。首先,在边缘设备上训练和部署 LAM 时,计算和内存资源的限制构成了其广泛应用的重大障碍。特别是在延迟敏感的应用中,有效减少模型参数和优化计算模式仍是亟待进一步研究的领域。此外,LAM 的联邦学习面临资源有限、数据异构性和个性化等挑战,未来的研究将重点关注高效协作、稳健优化和隐私保护个性化等问题。

7.LAM在语义通信中的应用

通信技术的快速发展不断推动人类社会向更高的智能化水平迈进。尤其是 LAM 的出现,深刻改变了通信系统的设计与优化,将传统的数据通信模式转变为语义通信。这一转变不仅限于信号传输,还扩展到了信息理解,开启了广泛的应用场景。以下是关于 LAM 在语义通信中应用的相关研究综述。

7.1 基于LLM的语义通信系统

LLM 具有强大的自然语言理解和生成能力,能够在复杂的通信环境中进行语义级别的分析与处理,从而显著提升语义通信系统的智能化水平。特别是在未来的 6G 网络中,LLM 可以支持更高效和灵活的语义通信架构,推动语义通信的智能化应用。例如,Wang 等人 提出了一个基于 LLM 的语义通信系统框架,将 LLM 直接应用于物理层的编码和解码。该系统利用 LLM 的训练和无监督预训练来构建语义知识库,并通过束搜索算法优化解码过程,减少复杂性,且无需对现有的 LLM 进行额外的再训练或微调。Jiang 等人 提出了一个大型生成模型辅助的口语视频语义通信系统(Large Generative Model-assisted Text-Speech-Video Semantic Communication, LGM-TSC),解决了口语视频通信中的低带宽利用率、语义歧义和用户体验质量(Quality of Experience, QoE)下降等问题。该系统在发送端引入了基于 FunASR 模型的生成语义提取器(Generative Semantic Extractor, GSE),将语义稀缺的口语视频转换为高信息密度的文本。接收端通过 BERTVITS2 和 SadTalker 模型的生成语义重构器(Generative Semantic Reconstructor, GSR),将文本转换回高 QoE 的口语视频,以匹配用户的语音语调。Chen 等人 提出了一个基于 LLM 的新型语义通信框架,解决了水下通信中的语义信息不匹配和关键信息传输困难的问题。该框架利用视觉 LLM 对水下图像数据进行语义压缩和优先级排序,在传输时选择性地传输高优先级信息,并对不重要的区域采用更高的压缩率。在接收端,基于 LLM 的恢复机制与全局视觉控制网络和关键区域控制网络配合工作,以重建图像,提升通信效率和鲁棒性。该系统将整体数据大小减少至原数据的 0.8%。

此外,Jiang 等人 提出了一个将 FM(包括 LLM)集成到语义通信系统中的方法,涵盖有效性、语义性和物理层。该集成方法利用通用知识改变系统设计,从而改善语义提取和重构。研究还探讨了使用紧凑模型来平衡性能和复杂性,并比较了三种基于 FM 的方法。研究强调需要进一步分析 FM 对计算和内存复杂性的影响,以及该领域尚未解决的问题。Kalita 等人 提出了一个将 LLM 与语义通信结合的框架,用于 IoT 网络中的高效通信。该框架利用 LLM 的能力,训练多种数据集并拥有数十亿个参数,以提升通信性能,尤其在现有技术接近香农极限的场景中。系统设计在近源计算技术(如边缘计算)上运行,从而提升 IoT 环境中的通信效率。Wang 等人 提出了一个通用的端到端学习语义通信模型,使用 LLM 来提升下一代通信系统的性能。该模型结合了子词级别的分词技术、基于梯度的速率适配器来匹配任意通道编码器/解码器的速率要求,以及通过微调来引入私有背景知识。

7.2 基于其他LAM的语义通信系统

除了 LLM,基于其他 LAM 的语义通信系统研究也在推动语义通信系统智能化方面发挥了重要作用。例如,Jiang 等人 提出了一个新型的跨模态语义通信系统(VLM-CSC),用于解决图像语义通信中的低语义密度、灾难性遗忘和不确定信噪比等问题。VLM-CSC 系统包括三个关键组件:(1)跨模态知识库,在发送端从语义稀缺的图像中提取高密度的文本语义,并在接收端重建原始图像,缓解带宽压力;(2)增强记忆编码器和解码器,采用混合的长短期记忆机制防止动态环境中的灾难性遗忘;(3)噪声注意模块,根据信噪比调整语义和通道编码,以确保鲁棒性。Zhang 等人 提出了“计划 A - 计划 B”框架,使用 MLLM 解决图像语义通信中的分布外(Out-Of-Distribution, OOD)问题。该框架利用 MLLM 的泛化能力来协助传统模型进行语义编码。贝叶斯优化方案通过过滤无关词汇并使用上下文相似度作为先验知识,重新塑造 MLLM 分布。在接收端,“生成-批评”框架提高了重构的可靠性,解决了 OOD 问题,并增强了语义压缩。Jiang 等人 提出了 GAM-3DSC 系统,解决了 3D 场景通信中的 3D 语义提取、冗余性和不确定的信道估计等挑战。通过引入 LVM,系统实现了用户驱动的 3D 语义提取、自适应多视角图像压缩以及 CSI 估计和优化,从而有效地进行面向目标的 3D 场景传输。Xie 等人 提出了一个集成大型模型的新型语义通信架构,引入了一个记忆模块,增强了语义和上下文理解,提高了传输效率,解决了频谱稀缺问题。
Yang 等人 提出了“ M2GSC”框架,用于 6G 多用户系统中的生成式语义通信。该框架利用 MLLM 作为共享知识库(SKB)进行任务分解、语义表示标准化和翻译,实现标准化编码和个性化解码。该框架还探索了将 SKB 升级为闭环智能体、适应性编码卸载和多用户资源管理等方向。Do 等人 提出了一个基于 Mamba 架构的多用户多模态深度学习语义通信系统,以提高资源受限网络中的效率。通过用 Mamba 架构替代 Transformer,该系统提升了性能并减少了延迟。它引入了一种新的语义相似性度量和两阶段训练算法,优化了基于比特的度量和语义相似性。Jiang 等人 提出了一个基于 LAM 的多模态语义通信(LAM-MSC)框架,解决了多模态语义通信中的数据异构性、语义歧义和传输过程中的信号失真问题。该框架包括基于 MLM 的多模态对齐(Masked Language Model-based Multimodal Alignment, MMA),以在保持语义一致性的同时进行多模态与单模态数据之间的转换。它还引入了基于 LLM 的个性化知识库(Personalized Knowledge Base, PKB)来执行个性化的语义提取和恢复,从而解决语义歧义。此外,还使用了基于条件 GAN 的信道估计方法,来估计无线 CSI,减轻衰落信道对语义通信的影响。

7.3 总结与经验教训

1)总结:本章总结了 LAM 在语义通信中的应用,包括 LLM 和其他 LAM。LAM 强大的数据处理能力能够有效减少通信开销 ,提高通信效率,增强语义信息的表达和理解,使语义通信更加灵活、智能和高效 。
2)经验教训:从本章中,我们得出了几个重要经验。首先,尽管 LAM 在语义提取和重构中表现出色,但其高计算复杂度仍然是资源受限环境中实现实时部署的主要瓶颈 。其次,当前的语义通信系统尚未完全解决语义信息对齐、歧义解决和动态网络条件下带宽利用优化等关键问题。特别是在多用户和多模态场景中,如何有效进行语义标准化和跨模态协作仍是开放的研究问题。

8.基于LAM的智能体系统

基于LLMs和其他通用人工智能(GAI)模型的智能体系统的应用,是应对当前通信系统所面临挑战的重要手段。这些由智能体驱动的系统可提高语义通信系统的传输效率,并优化边缘设备的资源分配。

8.1 基于LLM的智能体系统

基于LLM的智能体系统因其强大的自然语言处理(NLP)能力,在通信系统中得到了广泛应用。例如,Xu等人提出了一种基于6G的LLM智能体分布式学习系统,用以提升资源受限的移动设备上本地LLM部署的效率。该系统通过感知、语义对齐和上下文绑定等模块实现了移动边缘协同,模型缓存算法提高了模型的利用率并降低了协同LLM智能体的网络成本。Jiang等人提出了一种多智能体系统,以应对LLM在6G通信评估中所面临的原始数据不足、推理能力有限和评估困难等挑战。该系统由多智能体数据检索(Multi-agent Data Retrieval, MDR)、协同规划(Multi-agent Collaborative Planning, MCP)以及评估与反思(Multi-agent Evaluation and Reflection, MER)组成,语义通信系统案例研究验证了其有效性。Tong等人提出了WirelessAgent,利用LLM构建AI智能体,以应对无线网络中可扩展性与复杂性问题。该系统具备高级推理、多模态数据处理和自主决策能力,提升了网络性能。在网络切片管理中的应用表明,WirelessAgent能够准确理解用户意图,有效分配资源,并保持网络性能最优化。
此外,Zou等人提出了无线多智能体GAI网络,旨在通过多智能体LLM实现任务规划,以克服基于云的LLM所面临的限制。其方法探讨了基于博弈论的多智能体LLM,并设计了相应系统架构,案例研究表明设备端的LLM可协同解决网络方案问题。Wang等人提出了GAI Agents,一种新一代MIMO系统设计方法,旨在解决性能分析、信号处理和资源分配中的挑战。该方法将GAI智能体与LLM及RAG相结合,实现定制化解决方案,并通过两个案例研究验证其在MIMO系统设计中的有效性。Zhang等人提出了面向卫星通信网络设计的GAI智能体方法,解决了系统建模和大规模传输的挑战。该方法利用LLM与RAG构建交互模型,结合MoE进行传输策略设计,并通过融合专家知识与采用MoE-PPO进行仿真验证,展现了GAI智能体和MoE-PPO在定制化问题中的优势。Wang等人提出了基于LLM的基站选址优化(Base Station Siting optimization, BSS)框架,以克服传统方法的局限性。通过提示词优化和自动化智能体技术,该框架提升了选址效率,降低了成本,并减少了人工干预。实验证明,LLM与智能体显著优化了BSS过程。

8.2 基于其他GAI模型的智能体系统

除了LLM之外,基于其他GAI模型的智能体系统也在通信系统研究中得到了广泛应用。例如,Yang等人提出了基于强化学习的智能体驱动生成式语义通信(A-GSC)框架,用于应对智能交通系统和数字孪生中的远程监控挑战。不同于传统的语义提取研究,A-GSC结合了源信息的内在属性与任务上下文,并引入GAI以实现语义编码器与解码器的独立设计。Chen等人提出了一种AI智能体在6G网络中的系统架构,解决了网络自动化、移动智能体、机器人、自主系统及可穿戴AI智能体等方面的挑战。该架构实现了AI智能体与6G网络的深度融合及其与应用智能体的协同工作。原型系统验证了该架构的能力,并指出了三个关键挑战:能效、安全性以及智能体定制通信,为6G中AI智能体的广泛部署奠定了基础。

8.3 总结与经验教训

1)总结:本章综述了基于LLM和其他GAI模型的智能体系统在通信领域的研究与应用。借助这些技术强大的数据分析与处理能力,智能体系统能够更有效地应对当前通信系统的挑战,从而实现更高效的信息传输。
2)经验教训:本章得到的关键经验包括:首先,由于移动终端计算能力受限,基于LAM的智能体系统在本地部署与协同执行中面临计算效率低和模型调度复杂等问题。尽管已有研究引入模型缓存与任务划分机制以提升资源利用率,但整体系统仍难以满足现代通信场景下高并发与低时延的需求。其次,尽管多智能体系统可协同完成数据检索、规划与反思等复杂任务,但在6G语义通信等高级任务中,领域知识不足与高质量通信数据的缺乏限制了其推理与决策性能。

9.LAM在新兴应用中的探索

LAM与新兴应用的结合正推动多个行业与领域的技术创新。LAM依靠其大规模数据集与深度学习能力,在智慧医疗、碳排放控制、数字孪生、物联网人工智能(AIoT)、天地空一体化网络(Integrated Space-Air-Terrestrial Network, ISATN)以及无人机与LLM融合等方面提供了有力支撑。下文将对这些新兴应用中的LAM实践进行详细介绍。

9.1 智慧医疗

智慧医疗借助这些先进技术提升医疗服务的效率与质量。通过数据驱动的决策支持系统,医疗机构可实现精准诊断与个性化治疗,更好地满足患者需求。在智慧医疗场景中,通过LAM并结合数字孪生技术,医疗系统能够持续关注患者身体状况并提供个性化医疗服务。Abbasian等人提出的openCHA为用户提供了个性化的医疗咨询服务。openCHA是一个开源LLM框架,旨在为用户提供个性化的智慧医疗服务。该框架通过整合外部数据源、知识库与AI分析模型,克服了现有LLM在医疗应用中缺乏个性化、多模态数据处理能力及实时知识更新等局限性。

9.2 碳排放控制

在碳排放控制方面,Wen等人提出了一种基于GAI的低碳AIoT解决方案,以减少通信网络与计算密集型任务中的能源消耗所导致的碳排放。该方案使用GANs、RAG和GDMs优化资源分配、减少能源浪费并提升效率。研究还探讨了GAI在能源互联网(EI)、数据中心网络和移动边缘网络中的应用。在EI中,GAI优化可再生能源使用;在数据中心中,提升了信息通信技术(ICT)设备与冷却系统的管理效率;在移动边缘网络中,GAI结合IRS部署与语义通信技术实现功耗的有效降低。研究结果显示,GAI在碳排放优化方面具有显著优势,有助于实现低碳AIoT和可持续发展目标。

9.3 数字孪生

LAM在数字孪生中的应用是推动该技术发展的关键动力。例如,Xia等人提出了一个将LLM、数字孪生与工业自动化系统融合的框架,用于实现生产过程的智能化规划与控制。基于LLM的智能体可解读数字孪生中的描述性信息,并通过服务接口控制物理系统,在自动化系统各个层级中充当智能体,实现柔性生产流程的自主规划与控制。Hong等人提出了基于LLM的数字孪生网络(Digital Twin Network, DTN)框架LLM-Twin,以提升DTN中的通信与多模态数据处理能力。该框架引入了数字孪生语义网络(Digital Twin Semantic Network, DTSN)以优化通信与计算,并设计了小模型与大模型协作机制,以实现LLM的高效部署与多模态处理。此外,还提出了一种原生安全策略,以在保证安全性的同时不牺牲效率。数值实验与案例研究验证了LLM-Twin的可行性。

9.4 物联网人工智能

在AIoT场景下,Cui等人提出了LLMind框架,展示了LLM与特定领域AI模块的结合如何提升IoT设备的智能化水平与协作能力。该框架通过高级语言指令自动化任务执行并实现设备协同,其核心机制是“语言转代码”,将自然语言转化为有限状态机(Finite State Machine,FSM)表示的设备控制脚本,从而优化任务执行过程。借助经验积累机制,LLMind提升了系统响应速度并支持在动态环境中的高效协作,展现出其在IoT智能控制方面的巨大潜力。

9.5 天地空一体化网络

Javaid等人探讨了将LLM引入天地空一体化网络(ISATN)的潜力。ISATN结合多种通信技术实现跨平台无缝覆盖。研究表明,LLM凭借其先进的AI与机器学习能力,在数据流优化、信号处理与网络管理方面扮演关键角色,特别是在5G/6G网络中表现突出。该研究不仅全面分析了ISATN的架构与组成部分,还详细探讨了LLM如何解决传统数据传输与处理中的瓶颈问题。此外,论文还聚焦于ISATN中资源分配、流量路由与安全管理等方面的挑战,指出了数据集成、可扩展性与时延等技术难点。最后,提出了一系列未来研究方向,旨在进一步挖掘LLM在提升网络可靠性与性能方面的潜力,推动全球智能网络的发展。

9.6 无人机与LLM的融合

在无人机与LLM融合方面,Javaid等人系统分析了当前技术现状与未来发展方向。研究全面考察了LLM在增强无人机自主性与通信能力中的作用,特别是在频谱感知、数据处理与决策制定等关键领域。通过引入LLM,无人机在应对复杂任务时能够实现更高水平的智能化,包括自主响应与实时数据处理。作者评估了现有LLM架构,重点分析了其在提升无人机自主决策方面的贡献,尤其是在灾害响应与应急通信恢复等场景中的应用。此外,论文还指出了未来研究面临的技术挑战,强调了对法律、监管与伦理问题的进一步探索,以确保LLM与无人机技术的有效与可持续融合。

9.7 总结与经验教训

1)总结:本章重点探讨了LAM在新兴应用中的作用。在智慧医疗中,LAM通过openCHA等框架实现个性化医疗与高效诊断。在碳排放领域,LAM驱动的优化框架应对环境挑战,在实现可持续与碳中和目标中发挥关键作用。在数字孪生中,LAM促进其在工业自动化等领域的发展,增强了智能感知、通信与控制能力。在AIoT中,LAM提升了设备协同、任务执行与用户交互。此外,在ISATN与无人机等网络技术中,LAM助力资源分配、决策制定与通信优化。这些应用展示了LAM在多个领域应对复杂挑战中的日益重要性。

2)经验教训:本章总结了几项重要经验。其中一个主要问题是数据质量与多样性不足,限制了LAM在不同领域中的泛化能力。例如,在智慧医疗中,尽管LAM能提升个性化医疗的准确性,但数据隐私限制常常阻碍数据共享,可能引入模型偏差。在碳排放优化与AIoT场景中,LAM高度依赖高质量实时数据,而数据不完整或存在延迟将影响优化效果。此外,安全与隐私问题尤为关键。在数字孪生应用中,LAM作出的决策直接影响物理系统运行,若遭遇数据篡改或模型攻击,后果可能极为严重。尤其是在ISATN与无人机等集成应用中,若存在网络安全漏洞,可能被恶意利用,导致数据泄露或通信中断。

10. 研究挑战

尽管LAMs在通信领域具有广阔的应用前景,但仍面临诸多挑战。本节主要介绍LAMs在通信中的若干研究难点及潜在解决方案。

1)高质量通信数据的缺乏:在诸如6G和万物互联(IoE)等前沿技术的应用中,数据的获取与多样性成为一项重大挑战。尤其在无线通信、干扰抑制与频谱管理等核心任务中,高质量标注数据的缺乏严重限制了LAMs的训练效果。首先,数据采集成本高昂,尤其是在复杂网络环境中,需要大量硬件与传感器投入,导致设备开销和长期维护成本的上升。其次,数据隐私和伦理问题日益突出,严格的隐私法规对数据采集施加了严格限制,使得高效数据集的获取更加困难。最后,标注数据的稀缺性构成主要瓶颈,尤其在高精度任务中,获取标注数据需依赖专业知识与昂贵设备。此外,通信环境的动态性使得很难全面涵盖各种场景,从而限制了模型的泛化能力。通信领域中数据稀缺的问题阻碍了LAMs的应用。为应对此挑战,可采用数据增强、自监督学习和GANs等技术以扩充数据集、提升训练效率并降低对高质量标注数据的依赖,从而提升LAMs对动态通信环境的适应能力。

2)结构化通信知识的缺失:由于缺乏对通信理论、协议和标准的深入理解,LAMs在解决复杂通信问题时表现出一定局限性。LAMs主要依赖于数据驱动的学习,其决策过程往往仅基于从训练数据中提取的统计模式,忽略了通信中固有的结构化知识。例如,信号衰减、干扰与噪声等因素直接影响通信系统的设计,然而LAMs在嵌入这些复杂结构知识方面存在困难,尤其在干扰消除、频谱分配和信道建模等任务中表现突出。这一限制常常导致模型难以准确捕捉物理约束,最终影响系统整体性能。为解决该问题,可将通信知识嵌入LAMs中,如引入物理引导网络,并利用知识图谱构建结构化通信知识。通过融合领域知识与LAMs的推理能力,可在复杂通信场景下提升模型表现。

3)通信中的生成性幻觉:LAMs在通信领域中出现的“幻觉”成为一项重要挑战。该现象主要分为两类:其一是事实幻觉,即模型生成与真实结果偏离的不正确信息;其二是忠实性幻觉,即模型未能准确遵循用户指令,输出与指令无关或不一致的内容。造成幻觉的根本原因在于模型的数据驱动训练方式,缺乏对通信系统原理的深入理解。因此,在信号质量预测和网络优化等任务中可能做出不准确决策,严重影响网络性能与用户体验。为解决该问题,可采取多种策略以提升输出的准确性与稳定性,包括引入通信系统的物理约束、结合传统优化方法辅助模型输出、采用多模型集成决策以增强输出一致性,以及设计专用的幻觉检测与抑制算法。通过确保输出符合通信系统的客观原理,可增强LAMs在实际通信场景中的可靠性与适用性。

4)推理能力的局限性:通信系统中的LAMs主要依赖于数据驱动的模式识别与预测。然而,在面对需要高度抽象与多步推理的通信任务时,模型往往难以准确理解复杂的逻辑关系,导致决策不可靠。在无线信道建模、频谱分配与干扰管理等场景中,LAMs需推理多个相互依赖的物理参数与网络因素,以做出合理决策。若缺乏深层次推理能力,模型可能无法有效考虑这些复杂依赖关系,从而输出违背现实通信系统物理规律的结果。为克服此类推理局限性,可采用树状思维(Tree-of-Thought,ToT)、基于图的推理与长链推理等技术。此类方法通过引入分层结构信息、多步推理机制及过程级奖励函数,增强模型逻辑推理能力,提升决策准确性与适应性。整合这些先进推理机制后,LAMs在处理复杂通信任务时将更为高效与精准。

5)LAMs可解释性差:LAMs在通信领域中的“黑箱”特性构成了其可解释性不足的关键挑战。这些模型的内部机制和决策过程通常不透明,使得在故障诊断、系统优化和网络管理等任务中难以追溯其决策依据,从而加大了故障排查的复杂度。此外,可解释性不足也引发了伦理与法律层面的担忧,尤其在涉及用户隐私和网络安全的应用场景中尤为突出。为应对这一问题,可引入可解释人工智能(Explainable Artificial Intelligence, XAI)技术,以增强LAMs的透明性与可信度。例如,LIME(Local Interpretable Model-agnostic Explanations)和SHAP(Shapley Additive Explanations, )等工具,有助于用户理解模型决策背后的逻辑。此外,通过图形化手段可视化模型的决策过程,亦可揭示其推理路径。这些方法不仅提升了模型的可解释性,也为通信系统构建透明、可追溯的决策过程,增强了系统的信任度与操作可靠性。

6)动态环境下的适应性问题:由于网络拓扑结构、信道条件及用户需求的动态变化,通信系统在优化与管理中面临重大挑战,这使得快速适应与实时决策变得尤为关键。尽管LAMs在静态环境下表现优异,但其在动态场景下的适应能力常成为实际应用的瓶颈。在无线信道估计、资源调度和干扰消除等任务中,LAMs需快速响应环境变化,以确保预测的准确性与及时性。一旦模型无法根据不断演化的网络条件与用户需求调整其生成能力,便可能导致预测滞后或偏差,进而降低系统性能。为解决此问题,研究者提出了一系列技术方案,包括在线学习、持续学习、多任务学习与元学习等方法。这些方法可使LAMs动态优化参数、实现实时适应,并通过任务间的知识迁移提升其推理能力、适应性与稳健性,从而增强其在动态通信环境中的应用效果。

7)通信任务的多样性:通信领域涵盖信号处理、网络优化、干扰抑制与频谱管理等多类高度专业化任务,各类任务在目标、约束与优化策略方面差异显著,且相互之间具有复杂联系。虽然LAMs在多任务学习方面表现出一定优势,但由于缺乏通信领域的专业知识,优化目标存在差异,任务之间协调性不足,其在面对通信任务多样性时适应性受限。例如,信号处理要求深入理解调制与解调技术,而网络优化则关注带宽分配与流量控制。因此,设计能够灵活适应不同通信任务的模型架构仍是一项重大挑战。目前,任务专用模型、专家混合架构(MoE)与迁移学习等方法在提升LAMs在通信任务多样性下的表现方面展现出前景。任务专用模型为不同任务分配专属子模型,减少任务间干扰、提升效率;MoE动态选择与任务匹配的专家模型,提升多任务学习效率;迁移学习则促进知识迁移,提升模型适应性与泛化能力。上述方法协同作用,可有效增强LAMs在多任务通信环境下的适应性、效率与准确性,从而提升其整体性能与可靠性。

8)边缘资源受限:在移动设备、边缘计算平台及物联网(IoT)设备中,硬件资源有限,难以满足LAMs对计算能力与能耗的高要求。这些设备——尤其是6G网络边缘的节点与终端——通常需在低功耗与资源受限条件下运行,其计算能力、存储空间与能源效率远低于LAMs所需。若直接将LAMs部署至边缘设备,往往会导致性能下降、时延增加,甚至影响通信质量与用户体验。为提升LAMs在计算、存储与功耗受限设备上的效率,可采用多种策略:模型蒸馏技术将LAMs的知识迁移至更小的模型中,以增强适应性;模型压缩方法(如剪枝与量化)可有效减少计算与内存开销;硬件加速则利用GPU、TPU与FPGA等专用硬件加快推理速度,同时降低功耗。这些方法有助于在边缘与IoT场景中提升LAMs的推理效率与应用性能。

9)推理时延高:在无线通信中,低时延与高吞吐率对实时应用(如自动驾驶与远程医疗)至关重要。然而,由于LAMs结构庞大且计算复杂,其推理时延通常较高,可能导致系统响应延迟、吞吐率下降、关键任务不稳定及资源利用效率低下。随着通信系统复杂性持续上升,如何在保证模型精度的前提下降低推理时延成为关键挑战。为应对高推理时延问题,可引入若干优化技术:操作算子融合通过将多个计算操作整合,减少内存访问与数据传输延迟,从而提升计算效率;预测采样方法可提前预估推理步骤,降低计算开销。上述技术有效降低了时延,提升响应速度与资源利用效率,从而保障LAMs满足下一代通信系统对性能的严格要求。

10)安全与隐私:在6G网络中,使用LAMs进行数据处理带来了显著的安全与隐私风险。由于LAMs通常采用集中式预训练方式,极易遭遇数据泄露,攻击者可通过模型重构敏感信息。此外,数据传输过程也可能遭遇中间人攻击、窃听与篡改。同时,LAMs本身亦可能面临对抗攻击,导致预测结果错误,甚至危及网络稳定性。随着数据隐私法规日益严格,LAMs在部署时必须符合隐私保护要求,以规避法律风险并维护用户信任。为缓解上述问题,研究者提出了多项解决方案。例如,联邦学习可在本地设备上进行模型训练,最大限度减少敏感数据的传输与存储,从而降低数据暴露风险;同态加密与安全多方计算等加密计算技术可在不可信环境中保障数据安全。这些技术有助于缓解大模型所带来的安全威胁,增强模型的可靠性与用户信任,推动LAMs与下一代通信技术的深度融合。

11. 结论

本文系统回顾了大型人工智能模型在通信领域的发展现状、关键技术、应用场景与研究挑战。从基础理论到实际应用,全面总结了LAMs在通信系统中的核心作用与应用潜力,特别是在6G时代,面对高效、稳定与智能通信系统的迫切需求,LAMs的重要性日益凸显。首先,本文深入探讨了LAMs的基本构成,包括模型架构、不同类型LAMs的分类方式、训练范式、评估方法以及在通信任务中的优化机制。其次,本文对近年来LAMs在各类通信场景中的应用研究进展进行了详细综述。通过丰富的案例分析与前沿技术讨论,系统分析了不同LAMs在多种应用环境中的适应性与技术优势。最后,本文对LAMs当前在通信领域面临的关键挑战进行了深入剖析。这些挑战包括:通信领域高质量数据的缺乏、结构化领域知识的缺失、以及在通信任务中生成幻觉的发生。此外,多步推理能力不足、模型可解释性差、对动态环境的适应性弱、任务多样性带来的建模复杂性等问题亦显著制约了LAMs的发展。实际部署方面,边缘侧计算资源有限、推理延迟高以及数据安全与隐私保护等关键问题亦成为亟需解决的瓶颈。对此,本文提出了一系列潜在解决方案,以期缓解上述挑战。通过上述努力,LAMs有望实现更智能、高效且安全的通信服务,进而推动6G及未来通信网络的持续演进与创新。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值