NeurIPS 2018 | 基于自监督学习的视听觉信息同一性判断

本文介绍了一篇发表于 NeurIPS 2018 的论文,该论文提出了基于自监督学习的视听觉信息同一性判断方法,通过优化视觉和听觉特征提取网络,提高在独立模态下的任务准确率。论文采用‘视听觉时间同步’(AVTS)模型,考虑了语义和时序的同步性,并通过课程方式训练模型,提升了模型效果。
摘要由CSDN通过智能技术生成

640

640?


在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。


在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。


点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。

这是 PaperDaily 的第 124 篇文章

作者丨武广

学校丨合肥工业大学硕士生

研究方向丨图像生成


视觉和听觉存在着紧密的关联,同时空下视觉和听觉不仅在语义上存在着一致性,在时序上也是对齐的。失聪患者可以利用视觉信息做出判断,盲人也可以利用听觉信息做出判断,而一般正常人对事物的决策往往是结合视觉和听觉协同完成的。


达特茅斯学院和 Facebook 联合发表于 NeurIPS 2018 的这篇文章正是通过对视觉和听觉信息做同一性判断,在整体上优化视觉特征和听觉特征提取网络,在独立模态下也提高了各自的任务准确率。不同于我们之前说的 Look, Listen and Learn [1],这篇论文不仅仅在语义上判断视觉和听觉的一致性,还在时序上做了严格对齐判断。


640


640


论文引入


日常休闲娱乐很多人喜欢看电影,有时看电影的过程中会出现画面和音频对不上的情况,这会大大降低观影体验。为什么我们会察觉到画面和音频对不上呢?


这就是人类潜意识里已经建立了视觉和听觉上对应的关系,一旦客观现象中视觉和听觉信息对应不上,我们立马就会发现哪里出现了问题。人类不仅仅可以察觉画面和音频对应不上,结合已有的知识甚至可以推断是画面延迟了还是音频延迟了。 


目前机器学习大部分还是停留在单一模态下信息的分析和学习,比如计算机视觉是一个大的研究方向,音频分析和处理又是一个方向。然而,机器如果想更进一步的智能化,必须要像人类一样,利用多模态去分析和学习,结合不同模态下的信息和联系做出判断和决策。


已经有越来越多的研究者关注到了多模态信息的学习,跨模态检索、迁移学习、多模态信息联合决策、跨模态转换等。视觉和听觉这两个模态,本身就是严格关联的,只要物体运动了,视觉上的变化势必会带来听觉上声音的产生,如何结合视觉和听觉信息去提高视觉任务和听觉任务的处理,正是我们今天要看的这篇论文的核心。 


如何去结合视觉和听觉信息呢?论文采用的方式是“视听觉时间同步”英文缩写为 AVTS (Audio-Visual Temporal Synchronization),就是在语义和时序上对视觉和听觉信息做对齐判断,如果视觉信息和听觉信息不仅在语义上是关联的(视频和声音是可以对上的)而且在时序上也是对齐的(视频和声音不存在延迟,是对齐关系的)就判断为同步信息,否则认为是非同步。优化决策结果,则会提高视觉和听觉特征提取网络,特征提取好了自然在独立的任务上可以取得改善。 


笔者在之前的论文解读中对 Look, Listen and Le

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值