题目:Personalized Federated Learning for Generative AI-Assisted Semantic Communications
作者:Yubo Peng, Feibo Jiang, Li Dong, Kezhi Wang, Kun Yang
来源:arXiv
论文地址:https://arxiv.org/abs/2410.02450(查看全文请点击原文链接)
语义通信(SC)专注于传输语义信息而不是原始数据。这种方法为移动用户(MU)上的各种智能应用所引发的频谱资源利用问题提供了高效解决方案。近年来,生成式人工智能(GAI)模型展现了卓越的内容生成和信号处理能力,为提升语义通信带来了新的机遇。因此,本文提出了一种生成式人工智能辅助的语义通信(GSC)模型,该模型部署在MU和基站(BS)之间。为了在保护隐私和适应MU异构需求的同时使用MU的本地数据训练GSC模型,引入了个性化语义联邦学习(PSFL)。该方法结合了个性化本地蒸馏(PLD)和自适应全局剪枝(AGP)。在PLD中,每个MU根据其本地资源选择一个个性化的GSC模型作为导师,并选择统一的基于卷积神经网络(CNN)的SC模型作为学生,然后将导师模型蒸馏至学生模型进行全局聚合。在AGP中,根据实时通信环境对全局聚合模型进行剪枝,从而减少通信能耗。最终,数值结果证明了所提出的PSFL方案的可行性和高效性。
目录
1. 引言
作为6G中的一种创新通信范式,语义通信(SC)成为解决移动用户(MU)各种新兴应用导致的频谱牺牲的智能解决方案之一[1]。与传统通信不同,SC旨在仅传输与特定任务/目标相关的语义信息[2]。例如,在故障检测场景中,移动用户首先通过部署的SC编码器(即语义和信道编码器)从监控视频中提取语义信息,然后仅向部署在基站(BS)上的ES传输少量的语义信息。最后,接收到的语义信息由部署在边缘服务器上的SC解码器(即语义和信道解码器)进行解码。由于SC中传输的数据量大大减少,频谱资源的消耗也相应大幅减少。
SC的性能高度依赖于高质量SC模型的构建,因此许多研究人员基于深度学习(DL)模型构建SC模型。例如,Xie等人[3]提出了一个基于DL的SC系统,旨在通过恢复句子的语义来最大化系统容量并最小化文本传输中的语义错误。Wang等人[4]通过引入对抗性损失优化了基于DL的联合源信道编码,更好地保留了图像的全局语义信息和局部纹理细节。Han等人[5]提出了一个新的端到端基于DL的面向语音的SC系统,利用软对齐模块和冗余去除模块提取与文本相关的语义特征,同时丢弃语义冗余内容。上述大多数工作基于传统的判别式人工智能(AI)方法,这些方法通常涉及为特定应用场景训练的小型模型。这种方法本质上限制了其在不同环境中的适应性。此外,判别式AI主要专注于学习局部和短期特征,容易导致陷入局部极小值等挑战,并表现出有限的生成能力[6]。
生成式AI(GAI)作为AI技术的最新进展,不仅具有显著的生成能力,还展现出比判别式AI更强的数据处理能力。最新的GAI模型,如GPT-4和LLaMA 3.1[7],已广泛应用于各个领域。因此,基于GAI构建SC模型已成为近期的研究热点。Du等人[8]基于扩散模型在全双工端到端SC中设计了AI生成的激励机制,以促进用户之间的语义信息共享。Lin等人[9]提出了一个区块链辅助的SC框架,用于AI生成内容服务,以解决SC中恶意语义数据传输引发的安全问题。Guo等人[10]提出了一种基于预训练语言模型的语义重要性感知通信方案,以量化数据帧的语义重要性,从而减少通信中的语义丢失。
上述研究主要探讨了如何使用GAI来改进SC模型的结构,但并未考虑如何在移动MU上进行高效SC模型的训练。传统的集中式学习方法要求MU将本地数据传输到中央服务器进行集中训练,这可能导致高通信能耗和信息泄漏的高风险[11]。因此,这种传统方法并不适合MU进行SC模型的训练。
联邦学习(FL)[12]有潜力缓解上述问题。FL允许多个客户端和中央服务器仅通过共享模型参数来协作训练SC模型,而不需要传输大量的原始训练数据。许多研究集中在通信高效的FL上。例如,Nguyen等人[13]提出了一种高压缩FL方案,该方案在不修改模型结构或超参数的情况下有效减少了FL过程中的数据负载。同样,Wang等人[14]提出了一种通信高效的自适应联邦优化方法,通过误差反馈和压缩策略大大降低了通信成本。此外,Hönig等人[15]开发了一种双自适应量化FL算法,该算法随着时间和不同客户端动态调整量化级别,在提高压缩率的同时保持了模型质量。虽然这些研究提出了高效的FL算法以增强模型训练,但它们忽略了异构MU的模型适应性问题以及动态网络中的高通信开销问题。
基于上述相关工作的回顾,本文总结了将SC应用于MU的三个关键挑战,如下所示:
1) 语义提取能力不足:假设MU与基站之间传输的数据类型为图像,那么应该在其上部署图像SC系统。虽然卷积神经网络(CNN)在表示图像局部特征方面表现出色,但它们难以有效捕捉全局信息[16]。因此,基于CNN构建的图像语义编码器和解码器无法同时考虑图像的全局和局部语义特征。
2) 联邦学习中异构设备的模型适应性:MU通常是异构的,这意味着它们具有不同规模的本地数据和计算资源。通常,较复杂的模型在数据和计算资源充足时能够实现更高的精度[17]。因此,具有更多可用数据和计算资源的MU可能需要复杂的模型以实现更高的精度。然而,资源有限的MU只能使用紧凑模型进行本地训练,而资源丰富的MU不得不为了满足FL的模型同构性要求,也选择相同的紧凑模型作为妥协。
3) 动态网络中的高通信开销:虽然传统的FL算法通过使用多个MU的本地数据进行分布式训练,保障数据隐私和安全,但它们由于频繁的参数交换,往往导致大量的网络流量和通信开销[18]。通信高效的FL方法,如[14]和[15]中的那些,压缩传输的参数来减少通信能耗。然而,这些压缩技术是在客户端执行的,导致了额外的客户端成本。此外,这些方法没有考虑网络条件波动的影响,如无线通信中信噪比(SNR)的变化。
在本文中,提出了一种新颖的生成式AI辅助语义通信(GSC)模型,应用于MU与BS之间的通信,以提高有限频谱资源的利用率。随后,提出了一种个性化语义联邦学习(PSFL)方法,用于在MU上训练GSC模型,同时保护隐私和安全。主要贡献总结如下:
1) 通过GSC实现准确的语义传输:考虑到CNN的局限性,本文在GSC模型中的语义编码器和解码器中采用了Vision transformer(ViT)网络。作为处理图像的常见GAI网络,ViT通过多头自注意力机制,能够在发射端实现更准确的传输图像语义特征提取,并在接收端实现更精确的图像重构。因此,引入了GSC模型作为MU和BS之间的通信桥梁,实现了准确的语义传输,从而解决了提出的第一个挑战。
2) PSFL中的高质量本地训练:本文在PSFL的本地训练阶段提出了一种个性化本地蒸馏(PLD)策略,提高了GSC模型的精度。在PLD中,每个MU可以根据其本地资源选择合适的GSC模型作为教师模型,并选择统一的基于CNN的SC(CSC)模型作为学生模型。然后,将教师模型蒸馏到学生模型上,以满足FL的模型同构性要求。通过这种方式,PLD解决了第二个挑战。
3) PSFL中的节能型全局聚合:本文在PSFL的全局聚合阶段设计了一种自适应全局剪枝(AGP)算法,减少了通信能量的消耗。具体来说,对聚合的全局FL模型(即更新后的CSC模型)进行剪枝。剪枝比例是通过考虑MU和BS之间的实时SNR来确定的。因此,AGP解决了最后一个挑战。
2. 系统模型
以下为文本的主要内容介绍,详细的理论和公式请见原论文。
图1展示了MU与BS通过SC系统进行通信的过程。本文考虑了一个具有有限频谱资源的上行无线网络,用于部署分布式SC系统,该系统包括K个移动用户,记作集合K,以及一个带有ES的单基站。在训练阶段,ES负责进行全局聚合并更新全局SC模型,而MU根据本地数据训练各自的本地SC模型,随后将模型参数传输到BS。在推理阶段,MU在数据传输时仅需传输语义信息至BS,而无需传输大规模的原始数据[19]。这些语义信息随后在ES上进行解码。为了便于语义信息的提取,每个MU上都部署了SC编码器,而SC解码器则部署在ES上,用于解码接收到的语义信息。此外,还考虑了MU与BS之间物理信道的衰减问题。
图1:展示了MU使用SC与BS进行通信的示意图。
2.1 GSC模型
本文主要考虑图像语义通信,旨在捕捉输入图像中的感兴趣语义,从而减少图像传输所需的数据量,节约带宽。相比于传统的CNN,ViT在各种视觉任务中展示出更强的特征分析能力,如图像分类、目标检测和特征提取等[20]。因此,如图2所示,GSC模型采用ViT作为图像语义编码器和解码器。随后,本文基于深度神经网络(DNN)构建了信道编码器和解码器。最后,应用一个感知模型来模拟物理信道,确保其支持反向传播。基于GSC模型的图像语义通信的传输过程如下:
1) 发射端:语义编码器提取图像中的语义信息,并通过信道编码器对其进行编码和调制,以提高传输的鲁棒性。编码后的数据通过物理信道进行传输。
2) 物理信道:信号在物理信道中传输时,会受到噪声和衰减的影响。为了实现编码器和解码器的端到端训练,物理信道必须允许反向传播[3],因此本文使用感知器模型来模拟物理信道。
3) 接收端:信道解码器对接收到的信号进行解调,提取语义特征,然后由语义解码器进行解码。
图2:利用所提出的GSC模型进行图像传输的示意图。
2.2 FL模型
FL模型包括四个关键部分:本地数据集、本地模型训练与损失函数、全局模型聚合和隐私保护。每个MU拥有自己的本地数据集,数据可能是非独立同分布的(non-IID),并基于本地数据集进行模型训练,计算本地损失函数。然后,边缘服务器通过加权平均各个用户的本地模型更新来聚合全球模型,从而实现联邦学习的全局优化。为了确保数据隐私和安全,使用差分隐私和加密技术保护传输的模型参数。这一过程确保了在不共享用户原始数据的情况下,实现全局模型的优化。
2.3 通信模型
通信模型描述了MU与BS之间在联邦学习过程中进行上行通信的细节,假设采用正交频分多址(OFDMA)技术,移动用户在每一轮通信中向基站上传其本地模型权重。用户的上行传输速率取决于其可用带宽和SNR,通过这些参数计算每个移动用户的传输速率。接着,根据传输速率计算上传模型权重所需的传输延时,同时也计算了在传输过程中所消耗的能量,该能量消耗与用户的发射功率和传输时间相关。整个通信模型的目标是优化传输速率、减少传输延时以及降低能量消耗,从而在保证联邦学习性能的同时,提高通信效率并节约能量。
3. 针对GSC模型的PSFL
为了解决部署在MU上的GSC模型训练中的挑战,本文提出了PSFL方法,在本地训练和全局聚合阶段分别应用了PLD策略和AGP算法,以优化FL。
图3:所提出的个性化语义联邦学习(PSFL)示意图。
3.1 面向本地训练的PLD策略
为了解决异构MU的模型适应性问题,并确保不同GSC模型之间的有效信息交换,在本地训练阶段提出了PLD策略。具体而言,如图3所示,每个MU不仅基于其本地资源部署了一个合适的GSC模型,还部署了一个统一的小规模CSC模型。GSC模型在训练后用于语义通信服务,CSC模型则作为GSC模型知识传递的载体,被上传至基站进行参数聚合,随后再返回到本地MU,将新聚合的知识传递回GSC模型。此过程间接实现了不同MU间异构GSC模型的信息交换。为了在GSC和CSC模型之间实现有效的知识交换,使用了知识蒸馏(KD)技术。
知识蒸馏是一种涉及复杂教师模型和紧凑学生模型的迁移学习方法,旨在将教师模型的知识传递给学生模型。在PLD中,GSC模型作为教师模型,而CSC模型作为学生模型。基于KD的教师和学生模型之间的相互学习过程如下:
1) 从硬标签中提取知识:教师模型和学生模型计算模型输出与硬标签之间的损失[24]。通常,硬标签由特定任务决定。由于本文考虑的是分类任务,硬标签是输入数据的类别。任务损失为教师和学生模型提供了直接的任务特定监督。
2) 从软标签中提取知识:教师模型和学生模型通过互相传递预测的概率分布(软标签)进行知识蒸馏。为了避免错误预测相互误导,损失根据预测质量自适应加权,调整蒸馏强度。
3) 从语义信息中提取知识:教师模型和学生模型通过最小化语义编码器与信道解码器输出之间的差异进行学习,以提高语义通信的性能。自适应语义损失也根据任务损失进行加权。
4) 更新教师和学生模型:通过最小化总损失来更新教师模型和学生模型的权重,使用随机梯度下降(SGD)优化。整个流程总结在算法中,确保知识的有效传递和模型的改进。
PLD的优势可以总结如下:
-
在本地训练阶段,PLD为每个移动用户分配了一个复杂的GSC模型,同时使用一个统一且紧凑的CSC模型作为在联邦学习中传递GSC模型知识的载体,确保异构GSC模型之间的有效信息交换。
-
PLD根据预测结果对蒸馏和语义损失进行加权,避免了教师/学生模型在相互知识转移过程中可能误导对方的问题。
3.2 面向全局聚合的自适应全局剪枝(AGP)
在无线环境中,传统FL因频繁的参数交换导致MU通信能耗过高。为了解决这个问题,提出了AGP算法,通过动态调整剪枝比例,减少传输的参数量,从而降低通信能耗。
1) 模型剪枝和权重广播:在ES上对全局FL模型进行剪枝,移除一部分权重最小的参数。剪枝比例根据MU与BS之间的实时SNR自适应调整。剪枝后的全局模型会广播给所有MU。
2) 本地训练和上传:每个MU使用PLD策略进行本地训练,并上传更新后的本地FL模型给BS,进行下一轮全局聚合。
3) 全局聚合和模型更新:ES对所有MU的本地FL模型进行聚合,计算新的剪枝比例,并根据SNR的变化进行进一步剪枝或增加权重。最终,剪枝后的全局FL模型下载到每个MU,更新它们的本地模型。
AGP方法的新颖性可以总结为:
-
动态环境中的自适应剪枝:AGP算法能够增加剪枝率,以确保在通信不良的情况下实现稳定传输和低通信成本,并且在通信良好的情况下恢复被剪除的参数,以提高学习能力。
-
精度与能耗的权衡:AGP算法能够在动态网络环境中精细地平衡模型精度和能耗。
4. 数值结果
4.1 对提出的PSFL的评估
在本小节中,本文旨在从损失和准确率两个方面评估所提出的PSFL方案的性能。需要注意的是,准确率是指使用预训练分类器网络对GSC模型重构的图像进行正确分类的概率。使用ResNet-101 [34] 作为预训练分类器。此外,图中显示的损失和准确率结果表示GSC模型在所有客户端上的平均损失和准确率。首先,图4和图5展示了教师模型和学生模型在四个数据集上的训练结果。
在本小节中,本文旨在从损失和准确率两个方面评估所提出的PSFL方案的性能。需要注意的是,准确率是指使用预训练分类器网络对GSC模型重构的图像进行正确分类的概率。使用ResNet-101 [34] 作为预训练分类器。此外,图中显示的损失和准确率结果表示GSC模型在所有客户端上的平均损失和准确率。首先,图4和图5展示了教师模型和学生模型在四个数据集上的训练结果。
可以观察到,教师模型的损失和准确率依然高于学生模型,这说明了教师模型具有强大的指导能力。教师模型始终具备引导学生模型学习的能力。具体而言,如图4(a)-(b)和图5(a)-(b)所示,在MNIST和Fashion-MNIST数据集上,教师和学生模型的表现相当,由于这两个数据集较为简单,学生模型的表现与教师模型一样好。这表明它们在训练过程中相互学习。然而,如图4(c)-(d)和图5(c)-(d)所示,CIFAR-10和CIFAR-100数据集更为复杂,因此更加复杂的教师模型优于学生模型。这意味着教师模型在训练过程中可以为学生模型提供指导。这一评估表明,在PSFL方案中,教师模型和学生模型都能够继续学习和提高,从而确保信息交换的有效性。
图4:学生模型和教师模型在 (a) MNIST、(b) Fashion-MNIST、(c) CIFAR-10 和 (d) CIFAR-100 数据集上的损失与迭代关系。
图5:学生模型和教师模型在 (a) MNIST、(b) Fashion-MNIST、(c) CIFAR-10 和 (d) CIFAR-100 数据集上的准确率与迭代关系。
其次,评估了不同r值下模型的性能。为了更直观地展示r的影响,图6展示了CIFAR-10数据集在每个客户端上的不同类别数据的分布。图7和图8展示了在四个数据集中,不同狄利克雷分布下的训练结果。结果表明,随着r值的减小,模型的性能变差,因为较小的r值导致不同客户端数据之间的差异更大。具体而言,如图7(a)-(b)和图8(a)-(b)所示,对于较简单的MNIST和Fashion-MNIST数据集,在不同r值下差异较小。而对于较复杂的CIFAR-10和CIFAR-100数据集,如图7(c)-(d)和图8(c)-(d)所示,r值的增加对FL模型的影响更为显著。这意味着当数据集较为复杂时,所提出的PSFL在处理non-IID数据时表现较差,这可能是未来改进FL方案的一个方向。
图6:CIFAR-10 数据集中每个客户端的数据分布,分别在 (a) r = 0.3、(b) r = 0.6 和 (c) r = 0.9 的情况下。
图7:在 (a) MNIST、(b) Fashion-MNIST、(c) CIFAR-10 和 (d) CIFAR-100 数据集上,不同 Dirichlet 分布浓度参数 r 下的损失与迭代关系。
图8:在 (a) MNIST、(b) Fashion-MNIST、(c) CIFAR-10 和 (d) CIFAR-100 数据集上,不同 Dirichlet 分布浓度参数 r 下的准确率与迭代关系。
最后,为了评估PSFL方案中PLD和AGP的功能,进行了消融实验,结果如图9和图10所示。在没有PLD的PSFL中,每个MU选择GSC-M模型作为教师模型。从图9(a)-(b)和图10(a)-(b)可以看出,在MNIST和Fashion-MNIST数据集上,PSFL、PSFL无AGP和PSFL无PLD方案的性能相似。这可能是由于这两个数据集的简单性。在图9(c)-(d)和图10(c)-(d)中,PSFL无AGP方案获得了最低的损失和最高的准确率,而PSFL无PLD的结果最差。可以推测,AGP减少了模型的参数,但影响了性能,而PLD有效提高了模型的准确性。此外,图10(c)-(d)显示,PSFL无AGP与PSFL之间的差异小于PSFL与PSFL无PLD之间的差异,这表明AGP对模型准确率的影响小于PLD。
图9:在 (a) MNIST、(b) Fashion-MNIST、(c) CIFAR-10 和 (d) CIFAR-100 数据集上,不同方法下的损失与迭代关系。
图10:在 (a) MNIST、(b) Fashion-MNIST、(c) CIFAR-10 和 (d) CIFAR-100 数据集上,不同方法下的准确率与迭代关系。
4.2 对不同方案的评估
在本小节中,将提出的PSFL与其他FL方案在全局损失、全局准确率和本地准确率方面进行了对比。在本实验中引入了以下方法作为竞争者:
-
FedAvg:一种常见的FL方法,相当于没有PLD和AGP算法的PSFL [12]。
-
STC:一种为满足FL环境需求设计的压缩FL框架 [35]。
-
FTTQ:基于参数量化的高效通信FL方法 [36]。
-
FedPAQ:一种具有周期性平均和量化的高效通信FL方法 [37]。
-
PSFL:本文提出的FL方法。
图11:不同方案在 Fashion-MNIST 数据集上的对比结果,分别是 (a) 全局损失、(b) 全局准确率和 (c) 每个客户端的本地准确率。
图12:不同方案在 CIFAR-10 数据集上的对比结果,分别是 (a) 全局损失、(b) 全局准确率和 (c) 每个客户端的本地准确率。
除了PSFL,其他方案都采用GSC-M作为FL模型。此外,为了简化,本文只在Fashion-MNIST和CIFAR-10数据集上评估这些方法,r设置为0.9。图11和图12展示了评估结果。图11(a)和图12(a)的损失结果表明,所提出的PSFL在Fashion-MNIST和CIFAR-10数据集上能够收敛到最佳点,而FedPAQ表现最差。此外,FedAvg和FTTQ方案表现较好,而STC表现较差。从图11(b)和图12(b)可以看出,本文方法获得的全局FL模型的准确率是最佳的,并且显著优于其他竞争者。FedAvg方法的表现优于FTTQ、STC和FedPAQ方法,FedPAQ表现最差。在图11(c)和图12(c)中可以看出,所提出的PSFL使所有本地FL模型都实现了最佳的最终准确率。FedAvg和FTTQ的表现仅略差于本文的方法,而STC的表现仅略优于FedPAQ,FedPAQ在两个数据集上的结果最差。
本文推测PSFL的卓越准确性主要归功于PLD策略。PLD允许客户端自由选择最兼容的GSC模型,从而充分利用可用资源并实现高准确率。因此,借助所提出的PSFL,所有客户端都能够在各自本地数据资源不同的情况下实现最佳性能。此外,AGP算法通过避免传输所有参数权重,还确保了客户端之间的有效模型信息交换,从而保持了GSC模型的准确率。
4.3 通信能耗性能评估
在本小节中,评估了所提出的PSFL方案和其他方案在通信能耗方面的表现。图13展示了使用不同FL方案时,每轮通信的能耗情况。
图13:使用不同方法时每轮通信的能量消耗
从图13可以看出,所提出的PSFL方案的箱形图位于最底部,表明PSFL的通信能耗是最低的。同时,PSFL的箱形图也是最平坦的,即在动态SNR下,每轮的能耗变化最小。同样可以看到FedAvg方案的能耗最高,并且能耗变化最大。
因此,本文证明了所提出的PSFL能够在动态SNR条件下确保低通信能耗。PSFL的低且稳定的通信能耗归功于AGP算法。AGP算法在考虑动态SNR的情况下,对FL模型进行剪枝,从而有效减少无线通信中的通信能耗。此外,剪枝操作仅在服务器端进行,不会给客户端带来额外的成本。
5. 结论
本文提出了一种新颖的GSC模型,该模型利用GAI的优势提升了MU和BS之间SC的性能。此外,引入了PSFL框架,使MU和BS能够协同训练GSC模型,同时满足异构MU的训练需求。在PSFL中,首先在本地训练阶段引入了PLD策略,每个MU选择合适的GSC模型作为教师模型,统一的CSC模型作为学生模型,两个模型通过KD进行相互学习。在本地训练后,统一的CSC模型被用作本地FL模型,并上传到BS进行参数聚合,从而获得全局FL模型。其次,在全局聚合阶段应用了AGP算法,根据实时SNR对聚合的全局FL模型进行剪枝。AGP算法减少了传输的模型参数,实现了通信能耗与模型精度之间的平衡。最后,数值结果证明了所提出的PSFL的可行性和效率。
未来,将致力于通过引入最新的个性化FL算法,提高所提出的PSFL在non-IID数据上的性能。此外,由于CSC模型的参数可能涉及用户隐私,提升参数聚合过程中的模型参数安全性也是一个潜在的问题。