面向任务、多用户、VQA:Task-Oriented Multi-User Semantic Communications for VQA


论文简介

  • 作者
    Huiqiang Xie
    Zhijin Qin
    Geoffrey Ye Li

  • 发表期刊or会议
    《IEEE WIRELESS COMMUNICATIONS LETTERS》

  • 发表时间
    2022.3


动机:为什么作者想要解决这个问题?

  现存的工作主要关注单模态数据,然而在实际通信中系统需要处理来此多个用户多种模态的数据。

多用户:两个用户;多模态:两个模态


贡献:作者在这篇论文中完成了什么工作(创新点)?

  • 提出了一个面向任务多模态语义通信框架MU-DeepSC(又是联合设计)。采用视觉问答任务(visual question answering ,VQA )来验证框架的有效性。

    视觉问答任务:发送端部分用户传输图像,其他用户传输文本查询图像信息,接收端直接预测答案 (有监督学习,监督是答案)

  • 语义解码器用了memory,attention, and composition (MAC)神经网络
    这个网络在当时比较新,所以算创新了

规划:他们如何完成工作?

  • 整体框架

    MU-DeepSC

    1. Image Transmitter:
      语义编码器采用ResNet-101,信道编码器采用不同单元的CNN来生成传输符号
    2. Text Transmitter:
      语义编码器采用双向长短期记忆(Bi-LSTM),信道编码器采用不同单元的dense层
    3. Receiver:
      图像信道解码器采用不同单元的卷积层,文本信道解码器采用不同单元的dense层,语义解码器采用MAC神经网络

      看的这些论文里,信道编码器有用CNN的,有用dense的,不尽相同
  • 具体来看一下MAC网络

    在这里插入图片描述
      利用MAC网络作为语义解码器来合并文本和图像的语义信息,并且回答视觉问题。
      MAC网络包含多个MAC cell,每个包含 control unit,read unit和write unit:

    1. control unit首先根据接收到的文本语义信息,即问题对象和问题类型,通过注意力机制生成查询;
    2. 然后read unit通过另一个注意力机制模块,获取该查询并从图像语义信息中搜索对应的关键字。
    3. 最后,write unit整合信息并输出问题的预测答案。

      有一说一,我感觉换个网络也行

理由:通过什么实验验证它们的工作结果

在这里插入图片描述
  第一行是传输的图像,第二行是传输的问题,最后四行分别是所提出的 MU-DeepSC、传统方法、仅包含文本的 MU-DeepSC 和仅包含图像的 MU-DeepSC 的预测答案。

具体描述见论文III


自己的看法

  面向的是多用户的场景,采用VQA问题来验证所提出框架的有效性。之所以能发表,更多的是因为场景的新颖,多用户多模态,并不是文章所用的深度学习神经网络有多新。
  通过这篇论文知道了VQA是什么


  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值