[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

声明:本文为个人观点,如有不同意见,希望评论区指出,共同进步。

文章核心思想:

作者首先给了一个问题,简单概括就是一段话。
给你一个图像和一个音频,你要怎么把无声图像中的对象和对应音频中发出的声音给匹配起来,在一个音频中,声音往往是多个声源共同发出的,如何才能把声源中的K个发声源和图像中的K个发声源头给他组合到一起呢?就比如一个视频,一直一个画面,有鸡有鸭,但没有声音,这时候,给你一个音频,有鸡叫鸭叫,你能不能在视频中把这些声音的来源给勾勒出来呢?作者就研究了那么一个有趣的问题。

那么作者又是怎么做的呢,我们也做个简单的概括。
首先作者对图像和音频都以CNN的方式来抽取,当然,音频那块是先做的傅立叶变换,而图像那块是用的VGG,具体过程在论文的3.1,然后图像那块抽取出来,最终图像那里抽出64个512维的特征,音频那块抽出124个512维的特征。

接下来,我们就设定每个特征向量到中心的距离[图像向量到图像向量的中心,音频向量到音频向量的中心,中心数K由人工设置],接着不断的迭代更新(按作者说法,这种更新思想和EM类似),最后计算出每个中心。

在计算的过程中,同时也按照作者给出的损失函数来不断的更新网络参数和映射矩阵。作者设计的损失,就是音频向量中心和不是同一个序号的图像向量中心的距离之和 减去是同一个序号的图像向量中心的距离,并使他最大化。最后,把几个中心算出来之后,按照中心把聚类的结果呈现在图像上就可以了,结果如下所示。

在这里插入图片描述

文章关键点:无监督学习 聚类 CNN 音视频联合
原文摘要:

The seen birds twitter, the running cars accompany with noise, etc. These naturally audiovisual correspondences provide the possibilities to explore and understand the outside world. However, the mixed multiple objects and sounds make it intractable to perform efficient matching in the unconstrained environment. To settle this problem, we propose to adequately excavate audio and visual components and perform elaborate correspondence learning among them. Concretely, a novel unsupervised audiovisual learning model is proposed, named as Deep Multimodal Clustering (DMC), that synchronously performs sets of clustering with multimodal vectors of convolutional maps in different shared spaces for capturing multiple audiovisual correspondences. And such integrated multimodal clustering network can be effectively trained with max-margin loss in the end-to-end fashion. Amounts of experiments in feature evaluation and audiovisual tasks are performed. The results demonstrate that DMC can learn effective unimodal representation, with which the classifier can even outperform human performance. Further, DMC shows noticeable performance in sound localization, multisource detection, and audiovisual understanding.

算法过程简介:

在这里插入图片描述
首先就是这张网络结构图,我们可以看到作者对于图像和音频都采用了多层卷积的方式来进行特征提取,而后找出不同的中心来进行重组,使得相同序号的音频特征中心和图像特征中心一致,最后给出这些中心的真实含义。

在这里插入图片描述
作者给出的伪代码讲的十分清楚,很好的描述了从输入的特征到最后的中心的过程,但是中间貌似没有解释W是怎么来的,我将其理解为一个训练中所需要回归的参数,我们看作者的Loss Function。
在这里插入图片描述
很好的描述了作者是怎么使得音频和图像对起来的,但是,我还有点不清楚的地方,就是,作者是怎么使得这个更新到伪代码的参数中的,我大致理解为作者在1描述的一个循环结束后用了这个loss,因为这时候,需要的参数都已经有了,作者就可以将其带入后最大化,保证一致性,这样就能把所有参数更新一遍了,如果详细看了文章的同学有高见的话,希望能够评论区指点我下,感激不尽。

论文链接:https://arxiv.org/pdf/1807.03094.pdf
作者信息:Di Hu, Feiping Nie, Xuelong Li∗School of Computer Science and Center for OPTical IMagery Analysis and Learning (OPTIMAL), Northwestern Polytechnical University, Xi’an 710072, P. R. China
论文代码:待作者开源后更新

最后来一句,春节到了,但是大家千万不要掉以轻心,出门记得带好口罩,不要到人群密集的地方逛,这个时候对自己的负责就是对他人的最大负责。这种时候,正是众志成城,集中力量办大事的时候,大家要学会团结一致,听从指挥。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
CVPR 2019中发表了一篇题为“迁移学习:无监督领域自适应的对比适应网络(Contrastive Adaptation Network for Unsupervised Domain Adaptation)”的论文。这篇论文主要介绍了一种用于无监督领域自适应的对比适应网络。 迁移学习是指将从一个源领域学到的知识应用到一个目标领域的任务中。在无监督领域自适应中,源领域和目标领域的标签信息是不可用的,因此算法需要通过从源领域到目标领域的无监督样本对齐来实现知识迁移。 该论文提出的对比适应网络(Contrastive Adaptation Network,CAN)的目标是通过优化源领域上的特征表示,使其能够适应目标领域的特征分布。CAN的关键思想是通过对比损失来对源领域和目标领域的特征进行匹配。 具体地说,CAN首先通过一个共享的特征提取器来提取源领域和目标领域的特征表示。然后,通过对比损失函数来测量源领域和目标领域的特征之间的差异。对比损失函数的目标是使源领域和目标领域的特征在特定的度量空间中更加接近。最后,CAN通过最小化对比损失来优化特征提取器,以使源领域的特征能够适应目标领域。 该论文还对CAN进行了实验验证。实验结果表明,与其他无监督领域自适应方法相比,CAN在多个图像分类任务上取得了更好的性能,证明了其有效性和优越性。 综上所述,这篇CVPR 2019论文介绍了一种用于无监督领域自适应的对比适应网络,通过对源领域和目标领域的特征进行对比学习,使得源领域的特征能够适应目标领域。该方法在实验中展现了较好的性能,有望在无监督领域自适应任务中发挥重要作用。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值