语义通信论文略读(五)Language-oriented Semantic Communication for Image Transmission with Fine-Tuned Diffusion

Language-oriented Semantic Communication for Image Transmission with Fine-Tuned Diffusion Model

面向图像的基于微调扩散模型的语言导向语义通信

· 作者: Xinfeng Wei, Haonan Tong, Nuocheng Yang, and Changchuan Yin
· 所属机构: 北京邮电大学北京先进信息网络实验室
· 关键词: 语义通信、生成模型、Transformer、肖像传输
· 时间:2024年

研究背景:

1. 图像传输的挑战: 随着服务数据流量的增加,资源有限的无线网络面临巨大挑战,特别是在极端资源受限和恶劣环境下进行图像传输。
2. 语义通信的潜力: 语义通信是一种新兴研究范式,旨在通过优化联合编码方案适应无线信道,有效压缩和传输图像。
3. 图像特征的传输问题: 在某些特定通信场景中,如零售行业和AR/VR应用,图像的某些特征(如人物的表情和状态)比具体身份更重要。
4. 生成式人工智能模型的发展: 近年来,生成式人工智能(GenAI)模型取得了显著进展,为语义通信领域带来了创新方法。
在这里插入图片描述

研究方法:

1. 语义编码: 提出一种新颖的文本到图像的语义通信系统,其中发射端将图像转换为文本,通过基于深度学习的端到端文本通信方法传输文本,并在接收端使用文本到图像的生成模型重建图像
2. 文本传输编解码器设计: 设计基于Transformer的文本传输编解码器,增强文本在噪声信道中的传输鲁棒性。
3. 微调扩散模型: 对基础扩散模型进行少量样本微调,以生成高保真肖像图像,满足肖像图像通信场景的需求。
4. 性能评估指标: 使用BLEU评分评估文本传输质量,使用LPIPS、FID和准确性评估图像重建的语义准确性。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验设计:

1. 系统模型和问题表述: 构建了一个包括语义编码器、语义传输和语义解码器的框架,通过图像到文本模型、文本的编码和解码以及基于接收文本重建图像的过程。
2. 网络架构: 使用基于Transformer的联合源信道编码模型DeepSC,并引入双向和自回归Transformer模型BART,形成BART-SC。
3. 图像生成: 在接收端使用微调的稳定扩散模型SD生成原始图像,通过在潜在扩散模型中编码、扩散和解码过程生成图像。
4. 语义评估: 评估文本传输的BLEU评分和图像生成的LPIPS、FID和准确性。

结果分析:

1. 文本传输性能: 实验结果表明,所提出的框架在肖像图像传输任务中,能够在有效减少数据量的同时,保持高感知相似度,并对噪声具有鲁棒性。
2. 图像重建质量: 通过LPIPS评估,所提出的Gen-SC方法在低信噪比条件下,相较于传统文本传输方法,平均LPIPS降低了0.1,显示出优化Gen-SC水平的潜在好处。
3. 语义准确性: 在低信噪比条件下,年龄、性别和表情的分类准确性均保持在80%以上,表明了微调的稳定扩散模型在图像重建方面的有效性。
4. 鲁棒性分析: 与基线方法相比,基于Transformer的传输模型在文本传输过程中提供了更好的鲁棒性。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

总体结论:

本文提出了一种针对肖像传输场景的Gen-SC框架,实现了高效和鲁棒的语义通信系统。通过将图像转换为文本,利用基于Transformer的文本传输模型,并使用扩散模型进行图像重建,实验结果表明该框架能够在显著减少传输数据量的同时,保持语义信息,并在文本传输过程中提供比基线方法更好的鲁棒性。此外,微调扩散模型的方案增强了肖像图像生成的感知相似度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值