论文简介
-
作者
Huiqiang Xie
Zhijin Qin
Geoffrey Ye Li -
发表期刊or会议
《IEEE WIRELESS COMMUNICATIONS LETTERS》 -
发表时间
2022.3
动机:为什么作者想要解决这个问题?
现存的工作主要关注单模态数据
,然而在实际通信中系统需要处理来此多个用户
、多种模态
的数据。
多用户:两个用户;多模态:两个模态
贡献:作者在这篇论文中完成了什么工作(创新点)?
- 提出了一个面向任务的多模态语义通信框架MU-DeepSC(又是联合设计)。采用视觉问答任务(visual question answering ,VQA )来验证框架的有效性。
视觉问答任务:发送端部分用户传输图像,其他用户传输文本查询图像信息,接收端直接预测答案 (有监督学习,监督是答案)
- 语义解码器用了memory,attention, and composition (MAC)神经网络
这个网络在当时比较新,所以算创新了
规划:他们如何完成工作?
-
整体框架
-
具体来看一下MAC网络
利用MAC网络作为语义解码器来合并文本和图像的语义信息,并且回答视觉问题。
MAC网络包含多个MAC cell,每个包含 control unit,read unit和write unit:
理由:通过什么实验验证它们的工作结果
第一行是传输的图像,第二行是传输的问题,最后四行分别是所提出的 MU-DeepSC、传统方法、仅包含文本的 MU-DeepSC 和仅包含图像的 MU-DeepSC 的预测答案。
具体描述见论文III
自己的看法
面向的是多用户的场景,采用VQA问题来验证所提出框架的有效性。之所以能发表,更多的是因为场景的新颖,多用户多模态
,并不是文章所用的深度学习神经网络有多新。
通过这篇论文知道了VQA是什么