NeurIPS 2018 | 基于自监督学习的视听觉信息同一性判断

最新推荐文章于 2022-08-17 15:00:14 发布

PaperWeekly

最新推荐文章于 2022-08-17 15:00:14 发布

阅读量570

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/84986522

版权

本文介绍了一篇发表于 NeurIPS 2018 的论文，该论文提出了基于自监督学习的视听觉信息同一性判断方法，通过优化视觉和听觉特征提取网络，提高在独立模态下的任务准确率。论文采用‘视听觉时间同步’(AVTS)模型，考虑了语义和时序的同步性，并通过课程方式训练模型，提升了模型效果。

摘要由CSDN通过智能技术生成

640

640?

在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区，查看更多最新论文推荐。

这是 PaperDaily 的第 124 篇文章

作者丨武广

学校丨合肥工业大学硕士生

研究方向丨图像生成

视觉和听觉存在着紧密的关联，同时空下视觉和听觉不仅在语义上存在着一致性，在时序上也是对齐的。失聪患者可以利用视觉信息做出判断，盲人也可以利用听觉信息做出判断，而一般正常人对事物的决策往往是结合视觉和听觉协同完成的。

达特茅斯学院和 Facebook 联合发表于 NeurIPS 2018 的这篇文章正是通过对视觉和听觉信息做同一性判断，在整体上优化视觉特征和听觉特征提取网络，在独立模态下也提高了各自的任务准确率。不同于我们之前说的 Look, Listen and Learn [1]，这篇论文不仅仅在语义上判断视觉和听觉的一致性，还在时序上做了严格对齐判断。

640

论文引入

日常休闲娱乐很多人喜欢看电影，有时看电影的过程中会出现画面和音频对不上的情况，这会大大降低观影体验。为什么我们会察觉到画面和音频对不上呢？

这就是人类潜意识里已经建立了视觉和听觉上对应的关系，一旦客观现象中视觉和听觉信息对应不上，我们立马就会发现哪里出现了问题。人类不仅仅可以察觉画面和音频对应不上，结合已有的知识甚至可以推断是画面延迟了还是音频延迟了。

目前机器学习大部分还是停留在单一模态下信息的分析和学习，比如计算机视觉是一个大的研究方向，音频分析和处理又是一个方向。然而，机器如果想更进一步的智能化，必须要像人类一样，利用多模态去分析和学习，结合不同模态下的信息和联系做出判断和决策。

已经有越来越多的研究者关注到了多模态信息的学习，跨模态检索、迁移学习、多模态信息联合决策、跨模态转换等。视觉和听觉这两个模态，本身就是严格关联的，只要物体运动了，视觉上的变化势必会带来听觉上声音的产生，如何结合视觉和听觉信息去提高视觉任务和听觉任务的处理，正是我们今天要看的这篇论文的核心。

如何去结合视觉和听觉信息呢？论文采用的方式是“视听觉时间同步”英文缩写为 AVTS (Audio-Visual Temporal Synchronization)，就是在语义和时序上对视觉和听觉信息做对齐判断，如果视觉信息和听觉信息不仅在语义上是关联的（视频和声音是可以对上的）而且在时序上也是对齐的（视频和声音不存在延迟，是对齐关系的）就判断为同步信息，否则认为是非同步。优化决策结果，则会提高视觉和听觉特征提取网络，特征提取好了自然在独立的任务上可以取得改善。

笔者在之前的论文解读中对 Look, Listen and Le

最低0.47元/天解锁文章

PaperWeekly

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2018 | 基于自监督学习的视听觉信息同一性判断

在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 AI 前沿成果。点击本文底部...
复制链接

扫一扫