基于视觉语言模型的跨模态语义通信系统

题目:Visual Language Model based Cross-modal Semantic Communication Systems 

作者:江沸菠, 唐传国, 董莉, 王可之, 杨鲲, 潘存华

来源:arxiv 

论文地址https://arxiv.org/abs/2407.00020(查看全文请点击原文链接)

语义通信(SC)近年来作为一种新型通信范式出现,通过创新的语义传输概念成功地克服了香农的物理容量限制。然而,现存的图像语义通信(ISC)系统在动态环境中面临着几个挑战,包括低语义密度、灾难性遗忘以及不确定的信噪比(SNR)。为了解决这些挑战,本文提出了一种新颖的基于视觉语言模型的跨模态语义通信(VLM-CSC)系统。VLM-CSC 包括三个新颖的组件:(1)跨模态知识库(CKB)用于从语义稀疏的图像中提取高密度的文本语义,并在接收端基于文本语义重构原始图像。高密度语义的传输有助于减轻带宽压力。(2) 基于记忆辅助的编码器和解码器(MED)采用混合的长期/短期记忆机制,使语义编码器和解码器能够在动态环境中,当语义特征的分布发生漂移时,克服灾难性遗忘。(3) 噪声注意力模块(NAM)采用注意机制根据 SNR 自适应调整语义编码和信道编码,确保CSC 系统的鲁棒性。最后,仿真实验证明了CSC 系统的有效性、适应性和鲁棒性。

目录

1. 引言

2. 工作简介

3. VLM-SCS系统模型

4. 基于BLIP的语义提取CKB

5. 基于SD的图像重建CKB

6. MED

7. NAM

8. 部分实验结果

9. 结论


1. 引言

随着移动通信技术从第一代发展到第五代,传输速率显著提高,接近系统容量的极限[1]。近年来,各种新兴应用,如元宇宙和虚拟现实,引入了大量数据流[2]。此外,这些应用需要在有限的频谱资源上进行广泛的连接,同时要求更低的延迟,给传统的源-信道编码方式带来了重大挑战。语义通信(SC)在语义领域操作,通过提取数据的内在含义,消除冗余信息,并在保留其基本语义内容的同时实现数据压缩[3]。

随着深度学习的快速发展,许多研究人员开始探索基于深度神经网络的端到端图像语义通信(ISC)系统。例如,使用深度学习方法构建的ISC系统,如卷积神经网络(CNN)、视觉Transformer(ViT)等,已经超越了传统的解决方案。尽管在基于深度学习的ISC研究取得了重大成就,但仍然存在一些挑战:

1) 低语义密度:图像是具有大量空间冗余的自然信号[4]。传统的ISC系统直接对整个图像进行编码,重点在于提取像素级的低级语义信息。然而,文本是人类创造的信号,具有高语义和信息密度。通过文本对图像信息进行总结可以超越低级像素级语义,并实现对对象和场景更复杂的高级语义理解。此外,传统的ISC系统缺乏利用知识库(KB)的可解释性的能力,导致基于深度学习的语义编码器和解码器具有有限的语义解释能力。

2) 灾难性遗忘:ISC系统通常在动态环境下运行,导致传输图像数据的特征分布和信道状态随时间漂移。因此,实际数据分布与训练期间的分布不一致时,将导致语义编码器和解码器性能下降。需要对语义编码器和解码器进行持续学习,以改善ISC系统的性能。然而,在持续学习过程中,编码器和解码器的现有知识可能会被新知识破坏或覆盖,导致学习过程中的灾难性遗忘。因此,目前的ISC系统很难适应动态环境中的语义传输。

3) 不确定的信噪比(SNR):在无线通信中,传统的基于深度学习的ISC系统通常在训练阶段考虑少量离散的SNR条件,这不能覆盖所有可能的SNR场景。因此,当训练期间的信道条件与推理阶段不匹配时,性能可能严重下降。一种可行的方案是考虑多种SNR条件训练语义/信道编码器和解码器,并在推理阶段基于特定SNR值进行切换,但是这样可能会导致大量的存储和计算开销。

拥有数十亿参数的视觉语言模型(VLM)代表了多模态大模型领域的最新进展。通过在大量数据上进行广泛的预训练,这些VLM获得丰富的语言和视觉知识,从而在自然语言处理和计算机视觉等领域取得了重大突破。在ISC系统中,VLM展示了巨大的潜力。利用它们理解和生成文本和视觉内容的能力,VLM实现了更准确的语义理解和语义特征提取,从而提供了更智能和高效的ISC体验。因此,本文提出了一种新颖的基于VLM的跨模态语义通信(VLM-CSC)系统,以解决ISC系统中的上述挑战。主要贡献总结如下:

1) 跨模态知识库(CKB):引入了一个CKB,它由发射端的基于引导式语言-图像预训练模型(BLIP)的知识库和接收端的基于稳定扩散模型(SD)的知识库组成,用于生成与图像一致的高质量文本描述,以及用于重建与文本描述匹配的图像。这些文本描述可以被视为从低级像素中提取图像的高级语义,从而增强了传输信息的语义密度。此外,这些描述使用户能够理解提取的语义内容,从而增强了CSC系统的可解释性。

2) 记忆辅助编码器和解码器(MED):采用MED来跟踪动态环境中的变化,同时在学习过程中避免灾难性遗忘。具体而言,设计了一个存储池,其中包含两种类型的存储器:短期记忆(STM)和长期记忆(LTM)。STM用于存储当前环境中的新数据,而LTM用于存储先前遇到的历史上的显著数据分布。在训练CSC系统时,同时输入来自STM和LTM的数据。这使得语义编码器和解码器能够回顾先前训练数据的所有知识,同时从新数据中学习。因此,CSC系统可以在不显著影响先前训练数据分布上的性能的情况下,获得对新数据分布的编码和解码能力,从而避免灾难性遗忘。

3) 噪声注意力模块(NAM):提出了一个NAM,根据不同的信噪比条件动态调整语义编码器和信道编码器。具体而言,在每个编码器和解码器层之后,使用注意力模块根据信道反馈提供的SNR值调整不同编码器和解码器的权重。当SNR较高时,NAM将平均分配更高的权重给语义编码器和解码器,以提高语义特征的编码和解码质量。相反,当SNR较低时,NAM将更高的权重分配给信道编码器和解码器,以改善信道编码以应对强烈的信道噪声。这个设计确保了语义特征在不同的SNR条件下保持高的鲁棒性。

2. 工作简介

以下为文本的主要内容介绍,详细的理论和公式请见原论文。

CSC系统由三个组件组成:一个发射机、一个接收机和一个物理信道,如图1所示。物理信道确保了在动态信噪比的传输介质上正确交换语义信息。

1发射机:在发射机中,输入图像x 被映射到符号 y 在物理信道上传输。发射机由三个独立的组件组成:用于跨模态语义提取的 CKB,语义编码器和信道编码器。CKB用于从图像中提取语义信息并将其表示为相应的文本信息。语义编码器和信道编码器负责语义编码、信道编码和调制,确保编码的语义信息可以顺利地传输到物理信道上。

2无线信道:发射机发送编码后的符号,通过物理信道传输到接收机。

3接收机:与发射机类似,接收机由三个组件组成:信道解码器、语义解码器和用于语义重建的跨模态知识库。语义解码器和信道解码器用于从接收到的符号中解码文本信息,而跨模态知识库则根据相应的文本信息进行图像重建。

图片

图1 CSC的系统模型

3. VLM-SCS系统模型

与基于深度神经网络(DNNs)、知识图谱(KGs)和其他方法的传统知识库相比,利用大模型VLM构建知识库具有几个优点:(1)VLM是具有数十亿参数和强大认知能力的大型AI模型,涉及世界知识的理解、表达和生成任务。它们擅长于从语义层面理解、表达和生成视觉和自然语言数据。(2)与依赖手动规则或结构定义来描述知识的传统方法不同,VLM具有自动学习和从数据中提取知识的能力。这使它们能够生成适当的语义信息,降低信息丢失或模糊性的风险。(3)在SC系统中,理解和解释生成的结果的过程至关重要。VLM能够以人类可理解的方式生成语义信息,使通信双方能够更准确地理解和解释彼此的意图和表达。在本节中,我们将提供所提出的VLM-CSC系统的实施细节,如图所示:

图片

图2 提出的VLM-CSC系统。

1文本语义提取:为增强SC的语义密度和可解释性,在发送器上采用了一种名为BLIP的VLM来构建CKB。CKB包括一系列与视觉和语言相关的知识组件。我们利用此CKB中的图像编码器和文本解码器执行跨模态语义提取,从而将具有低语义密度的原始图像转换为具有高语义密度的相应文本描述。例如,通过跨模态语义提取,图2中的原始图像被转换为文本描述“A fire is burning on a beach near the water”。

2语义编码器和解码器:CKB生成的文本信息随后进入语义编码器。语义编码器由交替的Transformer编码器层和NAM组成。Transformer编码器层分析和转换文本信息为紧凑的语义表示。NAM允许语义编码器优化编码过程,并在通道条件变化的情况下保持可靠的语义传输。在接收端,语义解码器由交替的Transformer解码器层和NAM组成,其结构与语义编码器相反,旨在反转语义编码过程以恢复原始的文本信息。

3信道编码器和解码器:编码的语义特征通过信道编码器进行信道编码和调制,确保在物理信道上进行有效的语义信息传输。同样,信道编码器也由交替的前馈神经网络(FF)层和NAM组成。在接收端,通过物理信道传输的信息由信道解码器接收和解码。为了保持信息的一致性,信道解码器采用与信道编码器相反的结构。

4图像重建:为了更好地理解接收到的文本信息,我们设计了一个名为SD模型的VLM用于图像重建的CKB。CKB包括一系列视觉和语言相关的知识组件。我们利用文本编码器、去噪U-Net和图像解码器从这个CKB中进行图像重建。具体来说,文本信息首先通过文本编码器转换为条件向量。然后,去噪U-Net将嘈杂的图像转换为与条件向量对齐的潜在图像特征向量。最后,图像解码器处理潜在图像特征向量以生成最终重建的图像。

5) 记忆辅助的持续学习:在VLM-CSC系统的训练阶段,最新的样本被存储在短期记忆(STM)中。当STM存储满时,采用核方法选择代表性的短期样本转移到长期记忆(LTM)。然后,STM被清空以在下一轮中缓冲新样本。编码器和解码器在训练阶段从STM和LTM中取样,从而避免灾难性遗忘。这种方法确保语义编码器和解码器可以访问最近和过去的信息,实现持续学习和保留先前学习的知识。

6)VLM-CSC系统的训练过程:值得注意的是,基于BLIP和SD的CKB是预训练的VLM,无需为CSC系统专门进行训练。整个跨模态语义通信系统的训练过程如下所示:

  • 信道编码器和解码器与NAM的联合训练:首先通过MED同时训练信道编码器/解码器和NAM。这涉及通过最小化互信息来优化这些模块的参数,从而消除传输过程中的噪声或衰落效应,并防止信号失真。然后,冻结信道编码器/解码器和NAM的参数。这确保了它们学到的知识表示在后续训练步骤中被保留。

  • 语义编码器和解码器与NAM的联合训练:接着通过MED训练语义编码器/解码器和NAM。重点是优化这些模块的参数,以最小化原始文本信息和重建文本信息之间的损失。可以将文本交叉熵应用为损失函数。然后,冻结语义编码器/解码器和NAM的参数,以维持学到的语义表示。

  • 基于交叉的迭代训练:训练过程在信道编码器/解码器和NAM模块,以及语义编码器/解码器和NAM模块之间进行迭代。这个迭代过程会一直持续,直到整个VLM-CSC系统收敛。

4. 基于BLIP的语义提取CKB

BLIP模型是一种复杂的视觉语言模型,旨在理解和生成涉及视觉和文本元素的内容。BLIP模型具有丰富的视觉语言知识,并利用多种知识组件,如文本编码器、图像编码器以及图像相关的文本解码器和解码器,执行各种视觉语言任务,如图像描述、视觉问答和多模态分类。在传输端,我们使用BLIP模型构建CKB,并利用CKB中的图像编码器和图像相关的文本解码器(简称为文本解码器)将原始图像数据转换为包含图像语义信息的详细文本描述。基于BLIP的CKB的工作流程如图所示:

图片

图3 基于BLIP的CKB的架构。

对于给定的图像 x,从图像数据中提取语义信息并生成文本表示 s 的过程如下:

1) 图像编码器:图像编码器包含一个基于 ViT 的特征提取模块。该模块将输入图像分成较小的补丁,并对每个补丁进行编码。通过具有多头自注意力(MSA)和FF子层的多个编码器层 [23],这些补丁向量经过处理以生成图像的文本表示,该表示对应于图像特征。图像编码器的具体工作流程如下:

  • MSA子层:MSA层允许每个补丁的向量与所有其他补丁的向量进行交互,捕捉图像中的全局和局部信息。

  • FF 子层:FF 层由线性层和激活函数组成,为每个补丁的向量进行非线性转换,以增强模型的适应性。

2) 文本解码器:BLIP 模型的文本解码器采用BERT 结构,能够基于从图像中提取的特征生成与图像相关的文本内容,如描述、标题和对话。文本解码器由多个堆叠的解码器层组成,每个解码器层包括三个子层:因果自注意力(CSA)、交叉注意力(CA)和 FF 子层。文本解码器的具体工作流程如下:

  • CSA 子层:CSA 是一种自注意力机制,仅允许注意力模型访问当前和先前的输入,而不是未来的输入 [24]。为了确保文本生成过程的因果性,CSA子层利用掩码矩阵防止当前标记访问未来标记的信息。这里,标记指的是文本中的基本单位,通常是一个词或一个子词。

  • CA 子层:CA 允许每个标记的向量与输入图像的特征向量进行交互[25]。

  • FF 子层:FF 层包括线性层和激活函数。

解码器的最后一层通过线性投影和softmax 函数将输出转换为预测序列中的下一个标记。然后,输出文本在生成过程中被用作下一个时间步的输入,直到生成最终的图像描述 s。

5. 基于SD的图像重建CKB

SD 模型是由 Stability AI 精心设计的 VLM,具有丰富的视觉语言知识,并适用于诸如文本到图像和图像到图像生成等多种任务 [26]。在接收端,我们使用SD 构建 CKB,并利用 CKB 中的文本到图像组件重建图像。语义重构器由文本编码器、特征生成器和图像解码器组成。

图4 基于SD的CKB的架构。

对于给定的语义文本ˆs,通过 SD 模型进行图像重建的过程如图 4 所示,描述如下:

1) 文本编码器:文本编码器用于将输入文本序列转换为固定维度的语义向量,作为图像特征生成器的控制条件。文本编码器由多个堆叠的编码层组成,每个层包含两个子层:MSA 和 FF。在每个子层之前应用残差连接和层归一化。这个结构类似于 BLIP 模型中的图像编码器。文本编码器的输入是由单词组成的序列ˆs。最初,每个单词通过词嵌入映射到一个固定长度的向量。这些词嵌入作为文本编码器的输入。编码器迭代地执行 MSA 和 FF 操作,最终产生由文本特征向量组成的序列。

2) 特征生成器:将由纯噪声组成的初始图像特征向量输入到图像特征生成器中。文本特征向量被注入到噪声特征向量中以引导噪声去除。通过多次迭代,逐渐去除噪声,并获得包含文本信息的图像特征向量。去噪步骤采用 U-Net 结构,该结构采用 CNN 基础的编码器-解码器结构,以保留空间信息同时生成图像语义信息。

3) 图像解码器:由于扩散操作的计算效率低下,图像的去噪过程在压缩的语义空间中进行。在减少的语义(特征)空间中进行多次去噪迭代,显著提高了图像的效率。

最后,利用变分自动编码器(VAE)的解码器,将语义空间中的特征数据映射回像素空间,重建符合语义一致性的图像。由于VAE学习了大量图像数据分布的潜在结构,解码器在解码过程中可以通过上采样和插值提供更详细的信息,与图像中的关键语义一致,从而增强像素空间中的图像质量。

6. MED

在动态环境中,传输内容的分布和信道状态都会随时间变化。这要求CSC系统根据新的输入数据和信道状态持续调整,以适应不断变化的数据分布。然而,这样的调整可能导致CSC系统中编码器和解码器的参数更新,可能引发灾难性遗忘问题,即旧的知识被覆盖或忽略。因此,持续学习会降低CSC系统中编码器和解码器的稳健性。基于记忆的学习策略通过使记忆内容多样化来解决持续学习中的灾难性遗忘问题。我们为语义编码器和解码器设计了一种具有STM和LTM的MED方法。下面,我们介绍MED的工作流程如下:

图片

图5 辅助记忆编码器和解码器

1) 相关性评估:在CSC系统的推断阶段,正在处理的新样本持续添加到STM中。当STM中的样本数量超过指定的最大值时,执行评估操作。这个阶段的主要目标是评估样本的相关性。使用径向基函数(RBF)核来评估存储在STM和LTM中的两个样本之间的距离。

2) 样本选择:这个阶段的主要目标是从STM中选择与LTM中样本显著不同的样本,确保记忆中的多样性。当计算的相似性得分大于给定的阈值λ时,将样本从STM转移到LTM中。然后,通过持续学习,同时使用STM和LTM来训练语义编码器和解码器。

7. NAM

受文献[7]中特征注意力模块的启发,我们提出了基于信噪比(SNR)值的NAM。NAM利用新的噪声注意力网络来确定编码和解码过程中每个特征向量的重要性,为语义编码和信道编码分配权重。这允许根据当前的SNR实现对语义信息和信道信息的集成编码。具体地,在不利的信道条件下,将更高的权重分配给信道编码器,将较低的权重分配给语义编码器,以处理相同的源信息。这种分配策略增强了信道编码器的鲁棒性,以减轻严重信道噪声的影响。相反,在有利的信道条件下,将较低的权重分配给信道编码器,将较高的权重分配给语义编码器,以处理相同的源信息。增加对语义编码器的权重分配旨在提高语义质量。NAM的结构如图所示,下面提供了工作流程的详细描述:

图片

图6 噪声注意力模块

1) SNR投影:首先,SNR投影模块将SNR值扩展到与编码器和解码器中的特征向量相同的维度。该模块是一个包含三个全连接层的前馈网络。前两个全连接层采用ReLU激活函数,而第三个全连接层采用Sigmoid激活函数。它将输入的SNR值r转换为一个向量v。

2) 特征缩放:随后,我们将输入特征与投影的SNR结合起来,得到一个缩放因子K,该因子记录了每个中间特征向量对语义/通道编码器和解码器的重要性。

8. 部分实验结果

为了评估 VLM-CSC 系统在图像分类任务中的表现,我们将其与基于 CNN  的 JSCC [40]和基于 ViT 的 WITT  [41] 进行了比较。用于性能评估的指标是分类准确度。此外,我们将传输数据与原始图像之间的压缩比作为评估指标,以评估 VLM-CSC 的带宽节省能力。因此,压缩比越小,语义通信系统的效率越高,压缩性能越好。实验结果如图 7所示。

图 7 (a) 清楚地表明,在低 SNR 水平下,VLM-CSC 在 CATSvsDOGS 数据集的分类任务中表现出色,而 WITT 的结果略低,尤其是与 VLM-CSC 相比,性能下降。在高 SNR 水平下,WIIT 和 JSCC 由于直接传输图像,因此与 VLM-CSC 相比表现出更优的 SSQ。图 7 (b) 描绘了压缩比和可训练参数,其中 VLM-CSC 的压缩比最低,其次是 JSCC,而 WITT 的压缩比和可训练参数最高。

图 7 (c) 说明重建图像与原始图像和图像描述高度一致,验证了 VLM-CSC 系统确保跨模态语义一致性的能力。图 7所示的实验结果表明,与其他 ISC 系统相比,所提出的 VLM-CSC 在低 SNR 水平下在图像分类任务中表现出整体优越的性能。然后,与其他 ISC 系统相比,VLM-CSC 的传输数据压缩率明显较低,这表明 VLM-CSC 可以有效节省传输带宽,同时保持高质量的语义传输。此外,由于没有训练 VLM,VLM-CSC 系统具有最少的可训练参数,从而导致最低的训练复杂度。

图片

图7  VLM-CSC 与其他 ISC 系统的性能比较(a)SSQ(b)压缩比和可训练参数(c)语义对齐

9. 结论

本文介绍了一种新颖的VLM-CSC系统,该系统能够将图像转换成文本描述以通过无线信道进行传输,并在接收端重构图像。该系统包括三个主要贡献:CKB用于图像到文本及文本到图像的转换,MED用于动态环境中的持续学习,以及基于信噪比(SNR)的NAM用于联合语义和信道编码。针对跨模态语义通信系统,设计了相应的性能指标,从图像和文本两个角度评估VLM-CSC系统。在各种图像数据集下进行了实验验证。结果显示了VLM-CSC系统在保持图像与文本之间的语义相似性以及其适应动态环境的有效性和稳健性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值