【论文阅读|语义通信】WITT

语义通信

Yang K, Wang S, Dai J, et al. WITT: A wireless image transmission transformer for semantic communications[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.


Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows


一、摘要

  1. semantic encoder——> channel encoder——>wireless channel——>channel decoder——>semantic decoder的经典范式
  2. 旨在改善卷积神经网络,将NLP的Transformer引入图片领域,采用了 Swin 变换器作为提取长距离信息的更强大的骨干。与图像分类任务中的 ViT 不同,WITT 在考虑无线信道影响的同时,对图像传输进行了高度优化。具体来说,提出了一个空间调制模块,根据信道状态信息缩放潜表征,从而增强了单一模型应对各种信道条件的能力。

二、要点

1.引言

Swin-Transformer的提出旨在将Transformer引入视觉任务,作为特征提取的骨干网络。这一设计借鉴了卷积神经网络(CNN)在视觉处理中分层提取特征的思想,但直接使用传统Transformer在图像处理中的最大挑战是计算复杂度过高。原因在于,Transformer需要将输入的图像数据序列化后提取全局特征,而这种全局注意力机制对高分辨率图像会产生巨大的计算开销。
在这里插入图片描述

1.1 基本思想

为了解决上述问题,Swin-Transformer采取了以下策略:

  1. 分割成Patch:首先将图像划分为若干固定大小的小块(patch),以patch为基本特征单元。

  2. 窗口划分:在patch的基础上,将多个patch组织成若干窗口(window),以窗口为注意力操作的最小单位。这种局部窗口划分大幅降低了计算复杂度。

  3. 滑动窗口机制:由于窗口划分只关注局部区域,窗口之间缺乏交互信息。为此,Swin-Transformer引入了滑动窗口多头注意力(Shifted Windows Multi-Head Attention),通过滑动窗口实现相邻窗口间的特征交互,从而捕捉更丰富的上下文信息。

1.2 下采样机制

此外,在Transformer模型中,输入和输出的特征维度通常保持一致(即特征图的大小不变)。

为了减少计算开销并逐步聚合更高层次的语义特征,Swin-Transformer引入了Patch Merging模块来实现特征图的下采样。

1.2.1 Patch Merging模块的主要功能包括:
  1. 特征合并:将相邻的patch合并,降低特征图的空间分辨率。例如,特征图从 𝐻×𝑊降低到 𝐻/2×𝑊/2。

  2. 特征增强:在合并过程中,增加每个patch的通道维度,确保合并后的特征能表达足够的语义信息。

1.2.2 示例

假设输入为 16×16 的特征图,每个位置的特征维度为128。经过Patch Merging模块后:
空间尺寸会减小为 8×8(实现2倍下采样)。每个位置的特征维度可能增加到256(合并patch后丰富了语义表达)。

1.2.3 优势
  1. 降低计算复杂度:减少特征图的空间分辨率,从而减少计算量。

  2. 语义聚合:整合局部patch信息,逐层提取高层次语义特征。

2.Channel ModNet

SM模块会将其映射至为一个M维的向量,这个M维刚好和上面的线性层输出通道数相同,可以理解成根据输入的SNR调整了隐性特征各通道之间的比例信息,之后级联多个这种的模块,缩放swin-transformer模块的输出的特征向量。
在这里插入图片描述

3.CBR的设置及其对网络性能的影响

3.1 计算

在代码中,CBR(Channel Bit Rate)通过以下方式计算:

CBR = feature.numel() / 2 / input.numel()

这意味着,CBR依赖于feature(编码器的输出特征)的尺寸和input(输入数据)的尺寸。如果希望设置特定的CBR值,比如1/6或1/16,需要调整编码器的输出特征的大小(feature.numel())或输入的大小(input.numel())。通过以下方式可以间接设置:

  1. 调整网络架构:通过修改编码器的参数(如embed_dims、depths、num_heads等)来改变feature的大小。

  2. 数据预处理:通过下采样调整输入数据的大小,影响CBR的最终值。

因此,理论上可以设置CBR为1/6或1/16,但这需要精确设计网络和输入数据的维度。

3.2 CBR改变对网络性能的影响

  1. 性能权衡:

**较高CBR(如1/6):**通常会提供更高的还原质量(更高PSNR或更低的MSSSIM损失),但对通信信道的带宽要求较高。
**较低CBR(如1/16):**会降低数据传输需求,但重建质量可能下降,因为压缩和信息丢失更严重。

  1. **网络复杂度:**降低CBR可能需要更复杂的解码器来补偿信息的丢失,这可能导致计算开销的增加。

  2. **信道鲁棒性:**在低CBR情况下,噪声影响更显著,因为每比特包含的信息更多。

3.3 论文中CBR的设置建议

基准测试:选择多个CBR值进行实验(例如,1/4, 1/6, 1/8, 1/16),并报告相应的性能指标(如PSNR或MSSSIM)。

任务相关性:根据具体应用选择适当的CBR。例如:
图像传输任务可能更关注还原质量,优先考虑较高CBR。
资源受限场景(如嵌入式设备或窄带信道)可能需要较低CBR。

信道模型:在论文中明确说明实验所采用的信道模型(如AWGN或Rayleigh),并分析CBR在不同信道条件下的性能表现。

3.4 调整CBR的方法

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5 注意

调整CBR并不仅仅是改变单一参数,可能会影响到:

**信道传输的性能:**不同CBR对抗噪声的能力不同。
**模型复杂度:**压缩比越高,恢复质量越依赖解码器的设计。
**实验验证:**建议针对不同CBR值分别进行实验,评估性能权衡。

因此,修改CBR通常需要结合网络设计和实验验证共同完成。

3.6 CBR与Channel Bandwidth Ratio(信道带宽比)

CBR(Channel Bit Rate) 可以被理解为 Channel Bandwidth Ratio(信道带宽比)的一个具体表现。二者在定义和使用场景中非常接近,尤其是在通信系统和神经网络联合优化的场景下,它们都描述了信道资源的使用效率。
如原文图4的(c)-(f)


总结

通过上述机制,Swin-Transformer不仅保留了Transformer灵活的特征建模能力,还在视觉任务中实现了高效的局部与全局特征提取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值