题目:GAI-Enabled Explainable Personalized Federated Semi-Supervised Learning
作者:彭于波, 江沸菠, 董莉, 王可之, 杨鲲
来源:arXiv
论文地址:https://arxiv.org/abs/2410.08634v1(查看全文请点击原文链接)
联邦学习(FL)是一种常用于移动用户(MU)训练人工智能(AI)模型的分布式算法,然而,在将FL应用于现实场景时,会面临诸多挑战,如标签稀缺、数据非独立同分布(non-IID)以及不可解释性。因此,本文提出了一种新的FL框架,称为XPFL。首先,引入了一种生成式人工智能(GAI)辅助的个性化联邦半监督学习,称为GFed。特别是在本地训练中,利用GAI模型从大量未标注的数据中学习,并应用基于知识蒸馏(KD)的半监督学习来使用从GAI模型中获取的知识训练本地FL模型。在全局聚合过程中,通过按特定比例融合本地和全局FL模型,得到新的本地FL模型,从而使每个本地模型能够融合其他模型的知识,同时保留其个性化特性。其次,提出了一种用于FL的可解释AI机制,称为XFed。具体来说,在本地训练中,应用决策树来匹配本地FL模型的输入和输出。在全局聚合过程中,利用t分布随机邻居嵌入(t-SNE)来可视化本地模型在聚合前后的变化。最后,仿真结果验证了所提出的XPFL框架的有效性。
目录
1. 引言
在当前的大数据和深度学习时代,随着物联网技术的普及,来自各种移动用户(MU)生成的数据量急剧增加[1]。许多领域利用DL来处理海量数据以提高效率,例如金融、医疗、零售等。然而,由于这些数据大多涉及个人信息和商业机密[2],隐私安全成为了关键问题。在传统的集中式学习(CL)中,所有数据都需要集中存储进行训练,这增加了数据泄露的风险。为了解决这一问题,联邦学习(FL)应运而生,它可以在保护用户隐私和数据安全的前提下,实现模型的训练和更新[3]。
FL的核心思想是将模型训练和更新的过程分布到各个MU中,从而避免了集中存储和传输数据所带来的隐私问题[4]。具体来说,FL允许多个MU和一个中央服务器通过共享模型参数来协同进行训练,而无需传输大量原始的训练数据。因此,FL被视为一种更加高效且安全的机器学习方法,能够应用于各种场景,如智能家居、医疗保健、金融服务等。
尽管FL在数据隐私和安全方面显示了巨大的潜力和应用前景,但在实际场景中应用FL时仍存在一些挑战:
1)标签稀缺性:在实际环境中,MU上的标注数据往往稀缺[5]。这种稀缺性源于与MU的交互所生成的海量数据,如照片、文本输入以及可穿戴技术的生理测量数据。期望用户标注所有这些数据是不现实的。此外,在金融(例如风险管理、信用评估)和医疗(例如疾病诊断、健康监测)等领域,数据通常需要专家知识进行准确标注。不幸的是,现有的大多数FL框架,包括FedAvg和FedSGD[2],依赖于监督学习,无法有效利用未标注的数据。
2)数据非独立同分布:FL的参与者通常是异质的,反映了其本地环境和使用模式的差异。因此,不同MU的本地数据往往不是独立且同分布的(Non-IID)。本地数据集的大小和分布可能有显著差异,且没有任何单个本地数据集能代表整体分布。因此,在FL中,训练数据在各个MU上均匀分布的假设通常不成立[6]。这种异质性增加了训练过程的复杂性,并可能阻碍FL模型的收敛。
3)不可解释性:尽管DL模型具有很高的准确性,但它们通常作为“黑箱”运行,输出难以解释[7]。在如医疗和金融等关键领域,决策可能影响人类生命和财产,因此可解释性至关重要。因此,尽管FL在隐私和安全方面具有优势,但缺乏可解释性仍然是其广泛应用的一大障碍。
生成式人工智能(GAI)[8]代表了深度学习技术的最新进展,其一个关键优势是能够从大量未标注的数据中进行有效学习。与传统的判别式DL模型依赖大量标注数据进行监督学习不同,GAI模型能够捕捉数据的底层结构和分布,从而生成与原始数据集非常相似的新样本。这一能力使GAI在标注数据稀缺或获取成本高昂的场景中尤其有价值。因此,为了应对前面提到的挑战,我们提出了一个可解释的个性化联邦学习(XPFL)框架,其中引入了GAI辅助的联邦半监督学习(GFed)算法,解决标签稀缺和non-IID的问题。此外,设计了基于可解释人工智能(XAI)的FL(XFed),以增强本地FL模型和全局聚合的可解释性。具体贡献如下:
1)GAI辅助的半监督学习:在GFed中,利用半监督学习在本地训练阶段训练本地FL模型。具体来说,设计了一个基于GAI的自动编码器(GAE),通过无监督学习从大量未标注的数据中学习。同时,本地FL模型使用有限的标注数据进行监督学习。然后,GAE通过基于知识蒸馏(KD)的半监督学习将所学知识传递给本地FL模型,从而解决标签稀缺问题。
2)个性化全局聚合:在GFed中,通过将本地FL模型与全局模型按权重差异进行融合来更新本地模型。此过程使每个本地模型在参数聚合中获得知识,同时保留其个性化特性,从而缓解非IID数据带来的挑战。
3)可解释的本地模型:在XFed中,采用决策树(DT)作为白盒模型,近似本地FL模型(黑盒模型)的输入输出行为。决策树通过与本地模型输入相同的输入来生成相同的输出,从而作为本地FL模型预测的有效解释器。
4)可视化的全局聚合:在XFed中,应用t分布随机邻居嵌入(t-SNE)[9]来可视化全局聚合过程。通过比较模型更新前后的可视化结果,可以直接观察到每个本地模型在全局聚合过程中的变化。通过结合使用DT和t-SNE,可以确保本地模型和全局聚合的可解释性。
2. 相关工作
本节介绍了针对标签稀缺、客户端异构性和可解释性三大挑战的FL相关文献。
2.1 针对标签稀缺的FL
标签稀缺是FL环境中的常见挑战[10]。为了解决这一问题,研究人员越来越多地探索半监督和无监督学习技术。例如,Tsouvalas等人[11]提出了一种隐私保护且高效的数据方法,用于语音情感识别,将自训练与FL结合起来,以利用标注和未标注的数据。Yu等人[5]提出了一种在线FL算法,通过一致性训练计算无监督梯度,适用于缺乏标注数据的客户端。同样,Dong等人[12]开发了一个联邦部分监督学习框架,旨在解决各个MU之间标注数据稀缺的问题。
与这些方法不同,所提出的GAI辅助的半监督学习不仅充分挖掘了未标注数据的潜在知识,还通过整合个性化的FL方案提升了本地FL模型的性能。
2.2 针对Non-IID数据的FL
在FL中,客户端异质性通常表现为Non-IID本地数据,这会阻碍模型的收敛并降低性能[13]。为了解决这一挑战,研究人员提出了多种方法。Tursunboev等人[14]提出了一种分层FL算法,该算法利用基站处的边缘服务器作为中间聚合器,通过共享数据来缓解非IID效应。Wu等人[15]提出了一个概率节点选择框架(FedPNS),该框架根据最优聚合输出动态调整选择每个节点的概率,有效应对非IID挑战。同样,Gao等人[16]开发了一个具有本地漂移解耦和校正的FL算法(FedDC),其中客户端使用辅助的本地漂移变量来跟踪本地和全局模型参数之间的差异。
之前的方法主要集中于提高全局模型在本地数据上的泛化能力并减轻非IID数据的影响,而本文提出的个性化FL方法通过融合本地和全局FL模型来更新本地FL模型参数。这一方法使本地FL模型能够在全局聚合中受益,同时保持对每个客户端特有数据分布的个性化。
2.3 联邦学习中的可解释性
XAI涵盖了一系列帮助人类理解和解释AI系统(如深度学习模型)决策过程的技术。XAI在医疗、制造和汽车等领域尤为重要。因此,研究人员越来越关注将XAI与FL相结合。例如,Huong等人[17]提出了基于XAI的FedeX架构,使用户能够解释模型为何将某个实例分类为异常。Nasiri等人[18]应用了基于FL的方法和基于案例推理(CBR)的技术,创建了一个可穿戴的XAI框架。同样,Pedrycz等人[19]提出了一种用于学习Takagi-Sugeno-Kang模糊规则系统(TSKFRBSs)的FL方法,这些系统作为回归任务的XAI模型,使模型的决策过程易于解释。
与上述仅关注通过XAI解释本地模型预测结果的工作不同,本文方法同时解决了本地模型和全局聚合过程的可解释性问题。
3. 系统模型
以下为文本的主要内容介绍,详细的理论和公式请见原论文。
如图1所示,本文考虑一个蜂窝网络,其中基站(BS)配备了边缘服务器,并且有一组包含K个MU的设备,协同使用FL算法进行数据训练和推断。FL允许MU使用它们各自的数据集训练本地模型,并通过与BS交换参数来更新这些模型。例如,在灾前监测场景中,负责监测的MU可以从监控区域收集图像数据,并使用FL框架训练一个共享的深度学习模型。需要注意的是,大部分收集到的数据都是未标注的,只有一小部分是标注的,因为标注的高成本使得MU无法负担[5]。然而,在灾害场景中,决策可能关系到生命安全,因此确保FL模型的可解释性对于提高模型预测的可靠性和可信度至关重要。
图 1:所考虑的系统模型的说明。
3.1 联邦学习模型
所考虑的FL模型中,每个MU k 都拥有一个标注数据集。此外,每个MU还拥有一个未标注数据集。需要注意的是,不同MU的本地数据可能是Non-IID,这取决于监控区域和MU的使用模式。由于传统的FL通常依赖于MU的标注数据进行监督学习,因此在本小节中暂时不考虑未标注数据。在本地训练后,所有本地FL模型将上传到BS,并通过参数聚合合并为全局FL模型 ,以确保数据的隐私和安全。传统的FL算法旨在获取一个全局FL模型,该模型能够最小化每个MU k 在其标注数据集上的本地损失。然而,本文的目标是实现个性化FL,它通过使用本地模型 来最小化每个MU k 的本地损失,而不是仅仅依赖全局模型。
4. 方法
4.1 XPFL框架概述
本小节概述了XPFL框架的实现流程。假设XPFL从第t轮开始,如图2所示,以下步骤总结了XPFL框架的流程:
图 2:所提出的 XPFL 框架示意图。
1) GAI辅助的半监督学习:为了充分利用MU上的本地数据集,包括标注数据集和未标注数据集,每个MU k 采用GFed算法进行本地训练。具体来说,首先分别对标注数据和未标注数据应用监督和无监督学习策略。接着,通过基于KD的半监督学习,将从本地数据集学到的知识整合到本地FL模型中。关于GFed的更多细节见算法2。因此,这一过程解决了标签稀缺问题,并确保了本地FL模型的学习效率。
2) 可解释的本地模型:为了增强本地FL模型的可解释性,提出的XFed机制使用DT作为模型解释器。首先,DT经过训练以拟合本地FL模型,使得对于任何给定的输入,DT和本地FL模型的输出相同。由于DT的白盒特性,它可以作为本地FL模型预测的有效解释器。算法4详细描述了这一过程的实现。因此,在本地训练中实现了本地FL模型的可解释性。
3) 个性化的全局聚合:为缓解不同MU之间Non-IID数据的影响,GFed算法引入了一种新的全局聚合过程,促进了本地FL模型之间的参数共享。首先,使用FedAvg算法进行参数聚合,以获得全局FL模型。然后,通过按权重差异的比例融合本地和全局FL模型来更新每个本地FL模型。该过程在算法3中进行了描述。结果是,每个MU在全局聚合后获得了一个独特的FL模型,实现了个性化联邦学习,使本地模型在保留个性化特性的同时,受益于参数共享。
4) 可视化的全局聚合:为确保全局聚合的可靠性和有效性,可解释性至关重要,尽管它常常被忽视。在XFed机制中,使用t-SNE来可视化本地FL模型与数据分布的对齐情况。通过比较模型更新前后的可视化结果,可以直接观察到每个本地FL模型在全局聚合过程中的变化。该过程在算法5中进行了描述。这种可视化使人类解释者能够评估聚合过程的有效性。
在全局聚合后,基站将每个更新后的本地FL模型传输给对应的MU k,以准备下一轮FL训练。
4.2 提出的GFed算法
为了应对FL中的标签稀缺和Non-IID问题,提出了GFed算法,主要在本地训练和全局聚合方面进行了改进。正如图2所示,GFed算法的描述如下:
1) GAI辅助的半监督学习:传统的FL算法基于监督学习,例如FedAvg、FedSGD[20],忽略了大部分MU数据是未标注的,导致隐藏在未标注数据中的知识被浪费。因此,本文采用GAE以无监督的方式学习未标注数据,同时允许本地FL模型以监督方式学习标注数据。随后,提出了基于KD的半监督学习,使本地FL模型能够同时从标注数据和GAE中学习知识。
图 3:GAE 示意图。(a) 基于 GAE 的无监督学习。(b) ViT 的核心架构。
• 通过GAE提取未标注知识:由于考虑的是灾害监控场景,主要数据格式是图像,基于视觉Transformer(ViT)构建了GAE模型。与传统的卷积神经网络(CNN)相比,ViT在图像分类、目标检测和特征提取等各种视觉任务中显示出了优越的特征分析能力[8]。因此,采用ViT作为GAE的编码器和解码器,将ViT的特征提取能力与自动编码器的无监督特征重构能力相结合。正如图3(a)所示。
• 基于知识蒸馏的半监督学习:在通过GAE获得未标注数据集 的潜在知识后,本地FL模型对标注数据集进行基于KD的半监督学习。具体来说,假设本地FL模型是基于CNN构建的,并通过监督学习从中学习知识。同时,使用KD将GAE学到的知识传递给本地FL模型。KD是一种流行的迁移学习技术,涉及一个预训练的教师模型和一个未预训练的学生模型。在本地训练期间,KD的目标是将教师模型的知识转移到学生模型[22]。在这里,将本地FL模型视为学生模型,而预训练的GAE视为教师模型。通过GAI辅助的半监督学习,可以充分利用数据集和来训练本地FL模型,从而解决标签稀缺问题。
2) 个性化的全局聚合:典型的FL目标是最小化本地FL损失的聚合,从而为所有MU生成一个通用的全局FL模型,未考虑个性化。然而,当面对不同MU之间的异构本地数据分布时,全局FL模型的性能可能会下降[25]。作为补救措施,本文采用了个性化联邦学习。
GFed算法的实现,一方面,通过结合GAI和KD的优势,本文利用半监督学习使未标注数据得以充分利用,解决了标签稀缺的问题。另一方面,开发了基于余弦距离的个性化全局聚合,使本地FL模型能够从全局聚合中受益并适应各自的本地数据集,从而克服FL中的非IID数据影响。
4.3 提出的XFed机制
为了在本地训练和全局聚合阶段实现FL的可解释性,提出了XFed机制。如图2所示,XFed机制的描述如下:
1)可解释的本地模型:在本地训练后,本地FL模型将被部署以执行实际任务并做出决策,预测结果的可解释性至关重要,特别是在与生命、健康和安全相关的领域。因此,必须将白盒模型作为本地FL模型的解释器。在本文中,主要关注图像数据作为每个MU上的训练格式,这通常涉及非线性特征。此外,每个MU的计算资源有限,因此长时间的训练是不可行的。DT作为一种典型的白盒模型,能够有效处理非线性特征,同时需要的计算资源较少[26]。这使得DT适合资源有限的MU。因此,选择DT作为解释器,以解释本地FL模型的输入与预测之间的关系。
2) 可视化的全局聚合:在全局聚合中,每个本地FL模型共享参数信息以获得全局FL模型,然后根据公式(16)进行模型融合。为了确保聚合的有效性,需要解释FL模型在更新前后特征提取能力是否有所提升。为了解决这个问题,采用了t-SNE技术,它通过为每个数据点在二维或三维地图上分配位置来可视化高维数据。这使能够直观地观察每个本地FL模型如何适应数据分布。更重要的是,在可视化过程中,t-SNE能够保留这些高维数据的特征[28],从而确保解释的可靠性。
3)可解释性的量化指标:FL的可解释性是一个高度抽象的概念,代表模型的透明性以及用户的信任。因此,为了量化MU k的本地FL模型的可解释性,提出了一个新的指标,称为可解释性质量(QoX)。
5. 仿真与讨论
5.1 仿真设置
仿真使用MNIST[29]、Fashion-MNIST[30]和CIFAR-10[31]作为评估数据集,并以non-IID的方式进行划分。具体来说,应用Dirichlet分布在各个MU之间生成非IID数据划分[32],其中Dirichlet分布的浓度参数η默认设置为0.5。因此,每个MU获得某些类别的数据样本相对较少(甚至没有)。用γ表示每个MU上的标注数据比例,默认值为0.1。FL模型和GAE模型的网络结构设计如下:
• FL模型:该模型的架构由两个模块组成,每个模块包含一个卷积层和一个池化层。此外,模型中还有一个全连接层。为了引入非线性,所有卷积层后都跟随了修正线性单元(ReLU)激活函数。
• GAE模型:Masked Autoencoders(MAE)[33]是一种著名的生成模型,它利用ViT作为编码器-解码器,学习图像的准确特征表示并执行高质量的重构。因此,采用MAE作为GAE模型。
假设有10个MU用于FL训练。通信轮数和本地训练的迭代次数分别设置为T = 40和G = 1。仿真在PyTorch框架下进行,使用的服务器配置为Intel Xeon CPU(2.4 GHz,128 GB RAM)和NVIDIA A800 GPU(80 GB SGRAM)。
6. 基于GAE的无监督学习评估
为了直观地突出GAI架构在学习未标注数据方面的优势,本文展示了由GAE和基于CNN的自动编码器(CAE)生成的一系列重构图像。此外,采用了峰值信噪比(PSNR)和结构相似性指数(SSIM)等评估指标来量化重构图像的质量。
图4:MNIST数据集的图像传输结果。(a) 图像传输质量的视觉对比。(b) 图像传输质量的定量对比。
图5:Fashion-MNIST数据集的图像传输结果。(a) 图像传输质量的视觉对比。(b) 图像传输质量的定量对比。
图4展示了在MNIST数据集上的评估结果。如图4(a)所示,GAE和CAE都展示了较好的图像传输质量,但GAE在保留细节方面表现更为出色。图4(b)中的定量结果揭示了在PSNR和SSIM方面,GAE在原始图像和重构图像之间取得了更高的分数。图5展示了在Fashion-MNIST数据集上的评估结果,其中图5(a)表明由GAE生成的图像质量更高。图5(b)中的PSNR和SSIM结果进一步确认了GAE的图像质量更佳。
图6:CIFAR-10数据集的图像传输结果。(a) 图像传输质量的视觉对比。(b) 图像传输质量的定量对比。
图6展示了在CIFAR-10数据集上的评估结果。在这种情况下,图6(a)表明GAE能够准确重构原始图像,而CAE生成的重构图像则显得模糊。图6(b)中的PSNR和SSIM结果表明,GAE生成的图像质量优于CAE生成的图像。
GAE的优越性能可归因于GAI架构(即MAE)的优势,它比CNN架构提取更精确的特征信息。此外,由于其强大的生成能力,GAE在无监督学习任务中实现了更准确的图像重构。
6.1 XPFL在标签稀缺情况下的评估
本次仿真评估了在标签稀缺条件下,XPFL框架的性能。在本小节中,使用了以下算法作为对比:
• SemiFL [34]:这是一种重点解决通信高效的FL与半监督学习的集成挑战的FL。
• CL [35]:该模型直接使用全部数据进行训练。
• FedAvg [3]:常见的FL方法,相当于没有GFed和XFed算法的XPFL。
• XPFL:本文提出的新型FL方法,通过半监督本地训练解决标签稀缺问题。
需要注意的是,FedAvg和CL使用的所有数据都是标注过的,而XPFL和SemiFL只使用了部分标注数据。图7展示了每轮通信中全局FL模型的准确率变化。此外,本次仿真中η设置为0.5,表示MU之间的数据是non-IID的。
图7:在不同方案下全局FL模型在 (a) MNIST、(b) Fashion-MNIST 和 (c) CIFAR-10 数据集上的准确率。
如图7所示,当γ=0.1时,XPFL的准确率低于CL和FedAvg算法,但优于SemiFL(无论γ=0.1还是γ=0.2。当γ=0.2时,XPFL的表现仅次于CL算法,超越了其他竞争者,包括FedAvg。显而易见,随着γ的增加,XPFL和SemiFL的准确率都在提高,但XPFL的准确率提升幅度比SemiFL更大,这可以从图7(a)和(b)中看出。
由于CL算法可以使用全部标注数据进行训练,并且没有因为传输参数而导致模型性能损失,因此其性能始终最好。尽管FedAvg使用的所有数据也是标注数据,但其性能受到了非独立同分布数据的影响。因此,XPFL在γ=0.2时在三个数据集上的表现与FedAvg竞争力相当。推测XPFL优异表现的主要原因在于GFed算法。通过结合GAE基于无监督学习和基于KD的半监督学习,充分利用了未标注数据。此外,个性化的全局聚合减轻了非IID数据的影响。
6.2 XPFL在非IID数据下的评估
本次仿真评估了XPFL框架在MU数据为non-IID条件下的性能。在本小节中,选择了以下针对非IID情况设计的算法作为对比:
• FedAvgM [36]:一种结合FedAvg和服务器动量减缓策略的联邦学习方法。
• FedProx [37]:FedAvg的广义化和重新参数化,旨在解决联邦网络中的异构性问题。
• Scaffold [38]:一种联邦学习方法,采用控制变量(方差缩减)来解决“客户端漂移”问题。
• XPFL:提出的新型联邦学习方法,通过个性化全局聚合解决非IID数据问题。
需要注意的是,在本次仿真中,γ被设置为0.1,这意味着所有方法在本地训练中只有10%的标注数据。此外,本实验分别在η=0.1 、η=0.3和η=0.5的条件下评估这些方案的性能。
图8:在不同方案下全局FL模型在 (a) MNIST、(b) Fashion-MNIST 和 (c) CIFAR-10 数据集上的最终准确率。
图8展示了在不同条件下,不同FL方案获得的全局FL模型的最终准确率。显然,随着η的增加,所有方案的准确率都得到了提升。可以看到,在三个数据集中,提出的XPFL方法在不同的条件下均取得了最高的准确率。尤其是在η=0.1时,随着数据集复杂性的增加,XPFL与其他对比方法之间的差距也在扩大,这在图8(a)和(c)中表现得尤为明显。
关于XPFL方法的优越性,本文认为GFed算法的应用至关重要。具体来说,GFed算法设计了基于余弦距离的个性化全局聚合,使本地FL模型能够从聚合中受益并适应各自的本地数据集,从而克服了FL中的非IID数据影响。此外,引入的GAI模型可以帮助本地FL模型从未标注数据中获取额外的知识,进一步提高了本地FL模型的性能。
6.3 XPFL的可解释性评估
本次仿真旨在分别展示XPFL在本地训练和全局聚合中的可解释性。
图9:展示了DT对不同数据集下FL模型的解释,分别为 (a) MNIST,(b) Fashion-MNIST 和 (c) CIFAR-10。在每个图中,左侧的混淆矩阵显示了DT和FL模型预测结果的一致性。右侧则通过DT展示了每个样本从输入到输出的决策过程,不同颜色的节点代表不同的类别。颜色的深浅反映了样本属于该节点中类别的概率——颜色越深,概率越高。
图9展示了DT拟合FL模型的结果以及对某个MU中每个输入样本预测的解释。由于MU之间的数据是非独立同分布的,因此每个MU只拥有部分类别的数据。因此,在该MU中的测试数据只包含三个数据集中的四个类别标签。从图9(a)-(c)的左侧热力图中可以看到,DT完美地拟合了FL模型的输出,意味着对于相同的输入,DT和FL模型的输出是相同的。随后,在图9(a)-(c)的右侧,通过DT可视化了从所有输入到输出的决策过程。在这些DT图中,不同颜色的叶节点代表不同的分类类别,共有四个类别。
图10:展示了t-SNE对个性化全局聚合前后在不同通信轮次中FL模型的解释,分别为 (a) t = 1,(b) t = 20,(c) t = 40。在每个图中,上方的图像表示本地FL模型与全局FL模型融合前的可解释结果,而下方的图像表示融合后的可解释结果。
图10展示了通过t-SNE在不同通信轮次中FL模型更新前后对其进行解释的结果。图10(a)-(c)的上下图分别是更新前后的可视化结果。通过对比上下图,无论是从KL散度的数值还是模拟数据的分布来看,都可以看到FL模型的拟合在每次更新后都有所改善。特别是在图10(a)中,可以看到当 t = 1 时,FL模型对测试数据的拟合效果较差,表明FL模型质量较差。在图10(b)中,FL模型的拟合有所改善。而在图10(c)中,FL模型能够很好地区分不同类别的数据样本,这意味着FL模型能够准确提取数据特征。
图9和图10展示了XPFL的可解释性,主要由XFed算法实现。在XFed算法中,一方面,将DT作为FL模型的解释器,可以解释FL模型的任何输入与输出之间的关系,从而实现FL模型决策的透明性和可解释性。另一方面,基于t-SNE的可解释性方法使得本地FL模型在全局聚合过程中的变化能够通过可视化方式捕捉,从而确保全局聚合的透明性和可信度。
7. 结论
为了克服FL在实际场景中实施时遇到的问题,本文提出了XPFL框架。首先,提出了GFed算法来解决标签稀缺和Non-IID的问题。具体来说,在本地训练中,使用GAE学习海量的未标注数据,并通过基于KD的半监督学习,在GAE的辅助下训练本地FL模型。在全局聚合中,通过参数聚合后,自适应地融合本地模型和全局模型以获得新的本地模型。这个过程旨在让每个本地模型能够从其他模型中获取知识,同时保持其个性化特性。其次,设计了XFed算法来实现FL的可解释性。在本地训练中,应用DT拟合本地FL模型的输入和输出,并将其用作FL模型的解释器。在全局聚合中,使用t-SNE可视化每个本地FL模型在更新前后的变化,从而解释各个本地FL模型在聚合过程中的变化。最后,仿真验证了提出的XPFL框架的有效性。
未来,将考虑基于可解释性结果的客户端选择策略,从而选择具有高价值的MU,并降低训练成本。此外,本文还将研究在该框架中加入更复杂的通信和能量模型,使其更加合理和现实。