【论文阅读|语义通信】WITT

Original_kk

已于 2024-11-20 14:53:28 修改

阅读量1.5k

点赞数 50

分类专栏：论文阅读文章标签：论文阅读

于 2024-11-20 11:18:44 首次发布

本文链接：https://blog.csdn.net/Original_kk/article/details/143905357

版权

论文阅读专栏收录该内容

1 篇文章

订阅专栏

语义通信

Yang K, Wang S, Dai J, et al. WITT: A wireless image transmission transformer for semantic communications[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

一、摘要

semantic encoder——> channel encoder——>wireless channel——>channel decoder——>semantic decoder的经典范式
旨在改善卷积神经网络，将NLP的Transformer引入图片领域，采用了 Swin 变换器作为提取长距离信息的更强大的骨干。与图像分类任务中的 ViT 不同，WITT 在考虑无线信道影响的同时，对图像传输进行了高度优化。具体来说，提出了一个空间调制模块，根据信道状态信息缩放潜表征，从而增强了单一模型应对各种信道条件的能力。

二、要点

1.引言

Swin-Transformer的提出旨在将Transformer引入视觉任务，作为特征提取的骨干网络。这一设计借鉴了卷积神经网络（CNN）在视觉处理中分层提取特征的思想，但直接使用传统Transformer在图像处理中的最大挑战是计算复杂度过高。原因在于，Transformer需要将输入的图像数据序列化后提取全局特征，而这种全局注意力机制对高分辨率图像会产生巨大的计算开销。

1.1 基本思想

为了解决上述问题，Swin-Transformer采取了以下策略：

分割成Patch：首先将图像划分为若干固定大小的小块（patch），以patch为基本特征单元。
窗口划分：在patch的基础上，将多个patch组织成若干窗口（window），以窗口为注意力操作的最小单位。这种局部窗口划分大幅降低了计算复杂度。
滑动窗口机制：由于窗口划分只关注局部区域，窗口之间缺乏交互信息。为此，Swin-Transformer引入了滑动窗口多头注意力（Shifted Windows Multi-Head Attention），通过滑动窗口实现相邻窗口间的特征交互，从而捕捉更丰富的上下文信息。

1.2 下采样机制

此外，在Transformer模型中，输入和输出的特征维度通常保持一致（即特征图的大小不变）。

为了减少计算开销并逐步聚合更高层次的语义特征，Swin-Transformer引入了Patch Merging模块来实现特征图的下采样。

1.2.1 Patch Merging模块的主要功能包括：

特征合并：将相邻的patch合并，降低特征图的空间分辨率。例如，特征图从 𝐻×𝑊降低到 𝐻/2×𝑊/2。
特征增强：在合并过程中，增加每个patch的通道维度，确保合并后的特征能表达足够的语义信息。

1.2.2 示例

假设输入为 16×16 的特征图，每个位置的特征维度为128。经过Patch Merging模块后：
空间尺寸会减小为 8×8（实现2倍下采样）。每个位置的特征维度可能增加到256（合并patch后丰富了语义表达）。

1.2.3 优势

降低计算复杂度：减少特征图的空间分辨率，从而减少计算量。
语义聚合：整合局部patch信息，逐层提取高层次语义特征。

2.Channel ModNet

SM模块会将其映射至为一个M维的向量，这个M维刚好和上面的线性层输出通道数相同，可以理解成根据输入的SNR调整了隐性特征各通道之间的比例信息，之后级联多个这种的模块，缩放swin-transformer模块的输出的特征向量。

3.CBR的设置及其对网络性能的影响

3.1 计算

在代码中，CBR（Channel Bit Rate）通过以下方式计算：

CBR = feature.numel() / 2 / input.numel()

这意味着，CBR依赖于feature（编码器的输出特征）的尺寸和input（输入数据）的尺寸。如果希望设置特定的CBR值，比如1/6或1/16，需要调整编码器的输出特征的大小（feature.numel()）或输入的大小（input.numel()）。通过以下方式可以间接设置：

调整网络架构：通过修改编码器的参数（如embed_dims、depths、num_heads等）来改变feature的大小。
数据预处理：通过下采样调整输入数据的大小，影响CBR的最终值。

因此，理论上可以设置CBR为1/6或1/16，但这需要精确设计网络和输入数据的维度。

3.2 CBR改变对网络性能的影响

性能权衡：

**较高CBR（如1/6）：**通常会提供更高的还原质量（更高PSNR或更低的MSSSIM损失），但对通信信道的带宽要求较高。
**较低CBR（如1/16）：**会降低数据传输需求，但重建质量可能下降，因为压缩和信息丢失更严重。

**网络复杂度：**降低CBR可能需要更复杂的解码器来补偿信息的丢失，这可能导致计算开销的增加。
**信道鲁棒性：**在低CBR情况下，噪声影响更显著，因为每比特包含的信息更多。

3.3 论文中CBR的设置建议

基准测试：选择多个CBR值进行实验（例如，1/4, 1/6, 1/8, 1/16），并报告相应的性能指标（如PSNR或MSSSIM）。

任务相关性：根据具体应用选择适当的CBR。例如：
图像传输任务可能更关注还原质量，优先考虑较高CBR。
资源受限场景（如嵌入式设备或窄带信道）可能需要较低CBR。

信道模型：在论文中明确说明实验所采用的信道模型（如AWGN或Rayleigh），并分析CBR在不同信道条件下的性能表现。

3.4 调整CBR的方法

在这里插入图片描述

3.5 注意

调整CBR并不仅仅是改变单一参数，可能会影响到：

**信道传输的性能：**不同CBR对抗噪声的能力不同。
**模型复杂度：**压缩比越高，恢复质量越依赖解码器的设计。
**实验验证：**建议针对不同CBR值分别进行实验，评估性能权衡。

因此，修改CBR通常需要结合网络设计和实验验证共同完成。

3.6 CBR与Channel Bandwidth Ratio（信道带宽比）

CBR（Channel Bit Rate）可以被理解为 Channel Bandwidth Ratio（信道带宽比）的一个具体表现。二者在定义和使用场景中非常接近，尤其是在通信系统和神经网络联合优化的场景下，它们都描述了信道资源的使用效率。
如原文图4的（c）-（f）

总结

通过上述机制，Swin-Transformer不仅保留了Transformer灵活的特征建模能力，还在视觉任务中实现了高效的局部与全局特征提取。