语义通信+联邦学习阅读笔记(三)

语义通信

One-to-Many Semantic Communication Systems: Design, Implementation, Performance Evaluation

提出一种深度神经网络(DNN)支持的语义通信系统,称为MR_DeepSC。通过利用针对不同用户的语义特性,构建了基于预训练模型的语义识别器,即DistilBERT,以区分不同的用户

还采用迁移学习技术来加速新接收机网络的训练

是基于Transformer的由一个发射机和多个接收机组成的语义通信框架;其次,考虑到不同的用户拥有不同的语义信息,将预训练模型(DistilBERT)构建为每个接收者的语义识别器来区分用户。此外,为了应对不同用户所经历的多种不同信道环境,采用深度迁移学习来加快新接收网络的训练过程。

 

发送器由两个部分组成,即语义编码器和信道编码器:

语义编码器首先计算句子不同位置的单词之间的依赖关系。然后,它根据依赖关系的重要性提取重要的语义信息。

通道编码器对提取的语义信息进行通道编码,以便在物理通道上传输。请注意,语义编码器和通道编码器分别由独立的神经网络实现。

 

考虑到发送给不同用户的句子可能带有不同的语义特征,如语言、情感等,我们在每个接收者处建立一个语义识别器来标记这些差异。将背景知识和语义识别器相结合,每个接收者最终只接收到满足目标用户特征的接收信息。

  知识集 D 生成,其中 B 是批量大小。每个句子由一个肯定句SP和一个否定句SN组成,两者都通过特殊符号填充到相同的长度L。嵌入层将句子中的词转换为词向量,并得到词向量列  E∈B×2L×D作为语义编码器的输入。这里 D 是每个词向量的维度

Transformer编码层,每个子层又分为两个子层,即自注意力子层和前馈子层。

语义译码器由多个Transformer译码层组成,每个Transformer解码层有三个子层,即自注意力子层、编码器-解码器注意力子层和前馈子层。自注意力子层对过去的输出进行注意力操作,得到查询矩阵。编码器-解码器注意力子层将语义矩阵Mˆ1传递到不同的线性层中,得到键矩阵和值矩阵,然后基于这三个矩阵进行注意力运算,估计原始句子Sˆ1。由于 Sˆ1 包含了不同用户的句子,我们首先分离出长度相等的句子.

在第一阶段,它旨在训练发射器和接收器 1 之间的网络。虽然接收机1和接收机2具有相似的网络结构,共享一个发射机,但由于不同的用户有不同的发射信道,来自知识集 D 的一小批输入 S 通过语义编码器编码成 M。然后,通过物理通道上的通道编码器将M转换为X。在接收端1,Y1被接收到,然后在物理信道层进行解码,得到恢复的语义信息Mˆ。然后,利用语义解码器层估计语义句子Sˆ1。请注意,Sˆ1 不会由语义识别器处理,并且包含来自输入的所有语义句子。最后,利用交叉熵损失函数LCE对发射机和接收机1之间的网络进行训练.

联邦学习:

CVPR2024:     An Upload-Efficient Scheme for Transferring Knowledge From a Server-Side Pre-trained Generator to Clients in Heterogeneous Federated Learning

 代码链接:

https://github.com/TsingZ0/FedKTL(含有PPT和Poster)

运行实验所需仓库-个性化联邦学习算法库:

https://github.com/TsingZ0/PFLlib

运行实验所需仓库-异构联邦学习算法库:

https://github.com/TsingZ0/HtFLlib

根据任务内容不同,切分大模型以迁移到边缘测

,引入异构联邦学习技术,允许各个参与方采用不同架构的模型。将任务相关知识作为输入,传递给预训练生成模型,并针对当前任务做了域对齐,从而生成任务相关的数据。为了有效利用该数据,我们将其传输到联邦学习参与方后,运行一个额外的有监督任务实现知识迁移。通过共享 prototype。即每个类别的代表性特征向量,可通过平均该类所有的特征向量获得。我们将 prototype 当作共享知识,输入到生成模型后得到相应图片数据,并将图片-向量对(image-vector pairs)传回参与者

步骤3:域对齐完成,prototype要实现在维度上的对齐

如果直接将参与方上传的 prototype 输入到预训练生成模型,由于参与方模型的特征空间和生成模型的特征空间不匹配(通常连维度都不一致),导致生成的图像跟随机输入一样模糊不清。

所以我们需要先将 prototype 映射到高维的生成模型特征空间,并保证这些 prototype 依旧是任务相关的。因为我们考虑的是分类问题,任务相关指的就是 prototype 映射后得到的特征向量依旧保持类别可分离特性。

步骤6:我们将图片-向量对下载到各个参与方,而后通过一个额外的有监督任务实现知识迁移。

由于我们只对参与方模型的特征提取器进行知识迁移,而特征提取器需要的正好是特征提取相关的通用知识,且预训练生成模型含有大量通用知识。所以只要是生成模型生成的且由任务相关的 prototype 诱导出的图片,都可以在 KTL 中发挥作用。因此不需要生成模型在特定数据集上进行预训练,在任意图像数据集上预训练的生成模型都可以在我们的框架中发挥作用

GPFL: Simultaneously Learning Global and Personalized Feature Information for Personalized Federated Learning

代码链接:

https://github.com/TsingZ0/GPFL(含有Poster)

https://github.com/TsingZ0/PFLlib

GPFL方法
我们主要关注本地训练过程和本地模型的特征提取能力,所以这里忽略了服务器端的聚合操作和通讯等细节,仅展示了本地模型中的数据流和本地训练目标函数。

我们的主要思路是:既然本地模型训练在不修改本地任务的目标函数的情况下,天然地关注更多个性化的信息,那么我们只需要在本地特征提取器训练过程中引入更多的全局特征信息,并处理好引入方式,便可同时实现上面提到的两个目标。

于是,在“条件计算方法”的启发下,我提出了如图 3 所示的本地训练过程。这里为了理解方便,我们不提及公式,具体细节和公式等请参考我们的论文。

首先把原本的本地模型切分为两部分,一部分是特征提取器,另一部分是一个任务相关的头部,能同时吸收共性特征信息和本地任务中的个性信息。

条件计算阀 CoV:当输入个性信号 时,“个性信息提取路径”开启,数据流从 流到 ;当输入共性信息 时,“共性信息提取路径”开启,数据流从 流到 。这样就可以隔离掉 中的个性信息学习和 中的共性信息学习。当我们同时开启两条路径,就可以同时实现共性和个性信息的提取,且依旧保证 与 中的信息尽可能不受影响。

为了保证 能尽可能提取个性信息,我们将 保留在本地不作全局聚合。通过本地训练目标 ,个性特征信息可以天然地被本地化的 提取到,但共性特征信息依旧难以直接获得。于是我们提出了可学习的 GCE 模块,在模型之外,专门用来学习和存储共性特征信息。

由于我们关注的是特征向量,且 GCE需要具备更新、存储、查询(图 3 中的 look up)功能,所以我们就参考文本处理领域的 embedding 技术来构建 GCE。为了促进共性信息的生成,我们将 GCE 中存储的向量上传到服务器进行聚合。随后,我们用下载的全局向量引导 的共性信息提取。

He C , Annavaram M , Avestimehr S . Group Knowledge Transfer: Federated Learning of Large CNNs at the Edge

引言概括

在一些图像数据集进行有损压缩是可以接受的,保留关键参数就可以满足需求,现在采用的是将全局模型有损压缩为小模型,客户端对小模型训练后,再压缩至服务器进行解压后聚合,此处颠覆了我们的以往认知,这样的好处是既减少了通信量,又不是很影响精度,解决了客户端数量多、模型规模大的瓶颈。

Group Knowledge Transfer: Federated Learning of Large CNNs at the Edge(组知识迁移:边缘设备的大型CNN联邦学习)
思想:  FedGKT可以有效地在边缘上训练小CNN,通过知识蒸馏周期性地将小CNN的知识转移到一个大容量的服务器端CNN。
1
瓶颈: 扩大卷积神经网络的规模(宽度、深度)有效提高模型的精度,模型太大阻碍边缘设备训练,边缘设备缺乏GPU加速器和足够的内存,无法在资源受限的边缘设备上训练大型CNN。

优点:

减少对边缘计算的需求
降低大型cnn的通信成本(带宽)
异步训练,同时保持与FL相当的模型精度

W表示全局CNN在每个用户的网络权重,以前的FedAvg算法:

(1)特征提取器,分类,压缩至边缘本地训练
(2)周期性迁移到服务器端
(3)再迁移回边缘端(ResNet-56 or ResNet-110 压缩到边缘端和服务端)
(4)全局模型

将全局模型优化到非凸模型问题,修改目标函数,同时求解服务端模型和边缘模型

 超参数(当精确率稳定,学习率下降):

1.通信轮
2.边缘的epoch:取1
3.服务器的epoch:iid 20 ,non-iid 10
4.服务端的学习率

步骤:
1.在每一轮的训练中,客户端使用本地SGD来训练几个epoch,然后将提取的特征图和相关的日志发送到服务器。
2. 当服务器接收到从每个客户端提取的特征和日志时,它训练更大的服务器端CNN。
3. 服务器将其全局logit发送回每个客户机。

  • 25
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小小小邱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值