文献阅读《Cross-modal Semantic Communications in 6G》笔记-CSDN博客

本文链接：https://blog.csdn.net/2401_83235628/article/details/146266949

论文简介

作者
Mingkai Chen, Minghao Liu, Wenjun Wang, Haie Dou, Lei Wang
发表期刊or会议
《IEEE》
发表时间
2023年

摘要：

本文提出了一种基于深度学习的跨模态语义通信方法，其中语义编码和解码都有独特的设计。在低信噪比场景下。与传统方法相比，跨模态语义通信的相似度提高了53%以上，证明了该方法的优越性和可行性。按照我的理解，主要将该文章分为三个重点，笔记也就只记录这三个重点，其他细节请读原文获悉。

一、系统模型框架

首先区别语义通信和传统通信（香农..）,传统通信确保数据（比特流）的可靠传输，不关心数据内容的意义。而语义通信理解和传递信息的语义（含义、意图、上下文），以实现高效的信息交互。此外在处理层次上传统通信基于语法层（物理层、数据链路层等），关注信号编码、信道纠错、数据包完整性。而语义通信基于语义层（知识层、意图层），结合自然语言处理（NLP）、知识图谱、AI模型，提取信息的意义。其他异同自行索搜。

图1为原论文中给出的系统模型。显然，整个过程为：输入数据经过跨模态语义编码器后，在经过一个密度层（也叫全连接层），在经过一层Reshape layer（需要转换成适应无线信道环境的编码形式），经过物理信道传输后，再进行信道解码和语义解码最后输出数据。

流程图如下：

二、跨模态语义通信评估

为了满足对多模态甚至跨模态数据内容进行差异化评估的需求，论文提出了一种跨模态语义通信评估。它包含一个孪生网络和一个伪孪生网络融合架构。（不了解孪生网络的可以参考下面的文章）孪生网络（Siamese Network）。伪孪生网络就是不共享参数。

1. Siamese网络（相同模态评估）

适用场景：当发送端和接收端处理的是同一模态（例如均为文本或图像）时，使用Siamese网络。
网络结构：
- 发送端和接收端的信号通过同一个编码子网络处理，且该子网络的权重完全共享。
- 输入信号被映射到同一向量空间，生成两个嵌入向量（发送端的 U 和接收端的 Û）。
- 相似度计算：通过余弦相似度衡量两个嵌入向量的相似性：

值越接近1，相似度越高。

2. 伪Siamese网络（跨模态评估）

适用场景：当发送端和接收端处理的是不同模态（例如文本与图像、语音与文本）时，使用伪Siamese网络。
网络结构：
- 两路输入分别通过独立的编码子网络处理，权重不共享。
- 不同模态的嵌入向量（如文本的 U 和图像的 Ĝ）被映射到不同向量空间。
相似度计算：同样使用余弦相似度，但需适应不同向量空间：

此时，相似度反映跨模态语义的关联性。

同时，还有一项我认为很重要的作用，反向传播优化：相似度计算结果（θ）作为损失函数的一部分，反向传播调整编码器（α、β）和解码器（γ、φ）的参数，从而提升语义传输的鲁棒性。

核心：

权重共享：Siamese网络通过共享权重强制同一模态的编码一致性，而伪Siamese网络通过独立权重适配跨模态差异。
余弦相似度：作为衡量标准，其值直接反映语义保留程度，指导网络优化。
任务驱动：用户需求动态调整解码策略，确保输出模态与任务高度匹配。

三、语义编码过程

1.中间语义向量

首先要将不同模态的数据提取为中间语义向量，由于模态数据的特点和处理方法不同，预处理过程中需要针对模态数据的结构设计相应的语义提取方法。（就是不同模态需要不同的语义特征提取方法）。

（1）speech类型：

由于语音信号输入容易产生噪声，需要先经过去噪模块（谱减法），将去噪后的频谱输入门递归单元（GRU）和卷积神经网络（CNN），最后输出中间向量 $Z^V$ 。参考文章：语音去噪——谱减法（Spectral Subtraction）

（2）text类型：

对于文本，在语义提取中引入了Transformer，用于自然语言处理中提取文本语义和压缩语义信息。提取中间语义向量 $Z^T$ 。

（3）Image类型：

对于图像信号，需要将图像映射到CNN之后的中间语义向量 $Z^I$ 。

2.特征融合通过Frobenius norm.

论文在语义编码这一部分设计了中间语义特征融合，旨在通过衡量不同模态特征之间的相似性，保留独特特征并融合共性特征（就是高相似度舍去，低相似度保留）。

首先要了解什么是Frobenius norm。可以参考下面文章：弗罗贝尼乌斯范数（Frobenius norm）

它本质上是将矩阵“展开”为一个向量后计算其欧氏范数（L2范数）。

整个过程为，先确定某个模态为主模态（三者都可以作为主模态），通过引入Frobenius norm，计算主模态和其他加权模态的相似性，通过Sigmoid函数将范数值压缩到[0,1]，通过1−σ(⋅)反转逻辑，使得高相似性对应低η值{（公式9和10）}。最后融合（公式11）

核心在于将高相似度的语义信息舍去，而留下低相似度信息。（因为高相似度会使η值为0，所以就形成了舍去。）

ps:还有我感觉需要注意的是，计算相似性就是F范数时候， $\left \| \left ( \omega _{n}^{Q1} \right )^{H}\omega _{n}^{Q2} \right \|_{F}$ 是主模态的某一时刻特征和加权模态的所有时刻特征计算（需要自己好好思考下）。

3.为什么舍去高相似度？

第一次读的时候不是很理解，为什么要舍去高相似度的信息，反而留下低相似度信息，难道不应该是根据高相似使跨模态之间对齐，减少语义失真度吗？然后我就问了AI，给出以下回答：

(1)语义互补性

多模态本质：不同模态（如文本、图像、语音）承载的语义信息可能部分重叠，但更多是互补的。例如：
- 文本描述“一只柯基在草地上玩球”，可能未提及“天空的蓝色”或“草的纹理”。
- 图像包含视觉细节（如颜色、空间布局），这些可能是文本未覆盖的独特信息。
保留独特信息可确保接收端恢复完整的语义场景，避免信息缺失。

(2)任务多样性

用户需求差异：接收端任务可能多样化，例如：
- 图像生成任务：需要文本未提及的细节（如背景环境）。
- 问答任务：需要跨模态关联的隐含信息（如通过图像推断文本未明示的动作）。
独特信息为下游任务提供灵活性和扩展性。

(3)抗噪声与鲁棒性

低信噪比（SNR）场景：在噪声干扰下，高相似性特征可能包含错误匹配（如噪声导致的虚假关联）。
独特信息因与其他模态关联度低，更可能是真实语义的补充，增强系统鲁棒性。

总结：

这篇文章和我读的上篇文章《CA DeepSC: Cross-Modal Alignment for
Multi-Modal Semantic Communications》应该非常有关联之处。感觉CA DeepSC这个系统模型就是根据这篇论文延申而来。按照时间顺序，应该先有这篇论文再有CA DeepSC这篇。

仔细想想也是很有意思，两篇论文在整个系统框架上大同小异，主要在语义编码部分有区别，一个是引入Frobenius norm进行语义特征相融，保留跨模态数据低相似度部分，舍去高相似部分。另一个是引入Shapley值，计算边际贡献度，从而训练语义编码器增强对齐，且能指导辅助修正网络。两个语义编码器正好相反，一个保留高相似度，一个保留低相似度。

连着读这两篇文章真的会引发自己脑中思想的博弈，一会儿想到这个文章中的某个点，一会儿想到另一个文章中的某个点，几个点有时候矛盾，有时候又相互证实，总体下来还是很有意思的。当然，我对着两篇的论文理解还有限，文中也有很多我在下面思考的东西没法描述，写出来的东西可能会有很多错误，希望各位指正（温柔一些，不要言语犀利）。