语义通信
Yang K, Wang S, Dai J, et al. WITT: A wireless image transmission transformer for semantic communications[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.
Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
文章目录
一、摘要
- semantic encoder——> channel encoder——>wireless channel——>channel decoder——>semantic decoder的经典范式
- 旨在改善卷积神经网络,将NLP的Transformer引入图片领域,采用了 Swin 变换器作为提取长距离信息的更强大的骨干。与图像分类任务中的 ViT 不同,WITT 在考虑无线信道影响的同时,对图像传输进行了高度优化。具体来说,提出了一个空间调制模块,根据信道状态信息缩放潜表征,从而增强了单一模型应对各种信道条件的能力。
二、要点
1.引言
Swin-Transformer的提出旨在将Transformer引入视觉任务,作为特征提取的骨干网络。这一设计借鉴了卷积神经网络(CNN)在视觉处理中分层提取特征的思想,但直接使用传统Transformer在图像处理中的最大挑战是计算复杂度过高。原因在于,Transformer需要将输入的图像数据序列化后提取全局特征,而这种全局注意力机制对高分辨率图像会产生巨大的计算开销。
1.1 基本思想
为了解决上述问题,Swin-Transformer采取了以下策略:
-
分割成Patch:首先将图像划分为若干固定大小的小块(patch),以patch为基本特征单元。
-
窗口划分:在patch的基础上,将多个patch组织成若干窗口(window),以窗口为注意力操作的最小单位。这种局部窗口划分大幅降低了计算复杂度。
-
滑动窗口机制:由于窗口划分只关注局部区域,窗口之间缺乏交互信息。为此,Swin-Transformer引入了滑动窗口多头注意力(Shifted Windows Multi-Head Attention),通过滑动窗口实现相邻窗口间的特征交互,从而捕捉更丰富的上下文信息。
1.2 下采样机制
此外,在Transformer模型中,输入和输出的特征维度通常保持一致(即特征图的大小不变)。
为了减少计算开销并逐步聚合更高层次的语义特征,Swin-Transformer引入了Patch Merging模块来实现特征图的下采样。
1.2.1 Patch Merging模块的主要功能包括:
-
特征合并:将相邻的patch合并,降低特征图的空间分辨率。例如,特征图从 𝐻×𝑊降低到 𝐻/2×𝑊/2。
-
特征增强:在合并过程中,增加每个patch的通道维度,确保合并后的特征能表达足够的语义信息。
1.2.2 示例
假设输入为 16×16 的特征图,每个位置的特征维度为128。经过Patch Merging模块后:
空间尺寸会减小为 8×8(实现2倍下采样)。每个位置的特征维度可能增加到256(合并patch后丰富了语义表达)。
1.2.3 优势
-
降低计算复杂度:减少特征图的空间分辨率,从而减少计算量。
-
语义聚合:整合局部patch信息,逐层提取高层次语义特征。
2.Channel ModNet
SM模块会将其映射至为一个M维的向量,这个M维刚好和上面的线性层输出通道数相同,可以理解成根据输入的SNR调整了隐性特征各通道之间的比例信息,之后级联多个这种的模块,缩放swin-transformer模块的输出的特征向量。
3.CBR的设置及其对网络性能的影响
3.1 计算
在代码中,CBR(Channel Bit Rate)通过以下方式计算:
CBR = feature.numel() / 2 / input.numel()
这意味着,CBR依赖于feature(编码器的输出特征)的尺寸和input(输入数据)的尺寸。如果希望设置特定的CBR值,比如1/6或1/16,需要调整编码器的输出特征的大小(feature.numel())或输入的大小(input.numel())。通过以下方式可以间接设置:
-
调整网络架构:通过修改编码器的参数(如embed_dims、depths、num_heads等)来改变feature的大小。
-
数据预处理:通过下采样调整输入数据的大小,影响CBR的最终值。
因此,理论上可以设置CBR为1/6或1/16,但这需要精确设计网络和输入数据的维度。
3.2 CBR改变对网络性能的影响
-
性能权衡:
**较高CBR(如1/6):**通常会提供更高的还原质量(更高PSNR或更低的MSSSIM损失),但对通信信道的带宽要求较高。
**较低CBR(如1/16):**会降低数据传输需求,但重建质量可能下降,因为压缩和信息丢失更严重。
-
**网络复杂度:**降低CBR可能需要更复杂的解码器来补偿信息的丢失,这可能导致计算开销的增加。
-
**信道鲁棒性:**在低CBR情况下,噪声影响更显著,因为每比特包含的信息更多。
3.3 论文中CBR的设置建议
基准测试:选择多个CBR值进行实验(例如,1/4, 1/6, 1/8, 1/16),并报告相应的性能指标(如PSNR或MSSSIM)。
任务相关性:根据具体应用选择适当的CBR。例如:
图像传输任务可能更关注还原质量,优先考虑较高CBR。
资源受限场景(如嵌入式设备或窄带信道)可能需要较低CBR。
信道模型:在论文中明确说明实验所采用的信道模型(如AWGN或Rayleigh),并分析CBR在不同信道条件下的性能表现。
3.4 调整CBR的方法
3.5 注意
调整CBR并不仅仅是改变单一参数,可能会影响到:
**信道传输的性能:**不同CBR对抗噪声的能力不同。
**模型复杂度:**压缩比越高,恢复质量越依赖解码器的设计。
**实验验证:**建议针对不同CBR值分别进行实验,评估性能权衡。
因此,修改CBR通常需要结合网络设计和实验验证共同完成。
3.6 CBR与Channel Bandwidth Ratio(信道带宽比)
CBR(Channel Bit Rate) 可以被理解为 Channel Bandwidth Ratio(信道带宽比)的一个具体表现。二者在定义和使用场景中非常接近,尤其是在通信系统和神经网络联合优化的场景下,它们都描述了信道资源的使用效率。
如原文图4的(c)-(f)
总结
通过上述机制,Swin-Transformer不仅保留了Transformer灵活的特征建模能力,还在视觉任务中实现了高效的局部与全局特征提取。