Deep Multimodal Clustering for Unsupervised Audiovisual Learning

简介

提出深度多模态聚类方法,提出一种聚类方法,使用视听一致数据集,通过优化max-margin损失来将为每个音视样本划分类别,并得出簇的中心。聚类的中间变量是一个热力图,可以观察到网络关注的位置。为音视频度量余弦相似度可以确定两者的相互关系。

论文的任务

为音视特征聚类,以分类准确率作为指标分析音视频特征聚类效果;使用热力图进行声源定位任务;可视化音频和对应声谱图,试图理解其相关性。

网络结构

在这里插入图片描述
视觉子网使用VGG16,音频子网使用VGGish。

深度多模态聚类(DMC)

  • 输入:每个模态的特征向量: { u 1 a , u 2 a , . . . , u q a , ∣ u i a , ∈ R n } \{u^a_1,u^a_2,...,u^a_q,|u^a_i,\in R^n\} {u1a,u2a,...,uqa,uia,Rn} { u 1 v , u 2 v , . . . , u p v , ∣ u i v , ∈ R n } \{u^v_1,u^v_2,...,u^v_p,|u^v_i,\in R^n\} {u1v,u2v,...,upv,uiv,Rn}
  • 输出:每个模态的中心向量: { c 1 a , c 2 a , . . . , c k a , ∣ c j a , ∈ R m } \{c^a_1,c^a_2,...,c^a_k,|c^a_j,\in R^m\} {c1a,c2a,...,cka,cja,Rm} { c 1 v , c 2 v , . . . , c k v , ∣ c j v , ∈ R m } \{c^v_1,c^v_2,...,c^v_k,|c^v_j,\in R^m\} {c1v,c2v,...,ckv,cjv,Rm}
  • 初始化距离 d i j a = d i j v = 0 d^a_{ij}=d^v_{ij}=0 dija=dijv=0
  • 对于 t t t从1到 T T T迭代轮数), { a , v } \{a, v\} {a,v}中的 x x x,循环
    • 对于 i i i从1到 q ( p ) q(p) q(p)特征维度数目), j j j从1到 k k k聚类中心数),循环
      • 更新权重: s i j x = softmax ( − d i j x ) s^x_{ij}=\textbf{softmax}(-d^x_{ij}) sijx=softmax(dijx)
      • 更新中心: c j x = ∑ i = 1 p s i j x W j u i x c^x_j=\displaystyle\sum_{i=1}^p s^x_{ij}W_ju^x_i cjx=i=1psijxWjuix
      • 更新距离: d i j x = − ⟨ W j u i x , c j x ∥ c j x ∥ ⟩ d^x_{ij}=-⟨W_ju^x_i,\frac{c^x_j}{\|c^x_j\|}⟩ dijx=Wjuix,cjxcjx(内积)
    • 结束
  • 结束

损失函数

l o s s = ∑ i = 1 , i ≠ j k max ( 0 , s ( c j a , c i v ) − s ( c i a , c i v ) + Δ loss=\displaystyle\sum^k_{i=1,i\not=j}\text{max}(0,s(c^a_j,c^v_i)-s(c^a_i,c^v_i)+\Delta loss=i=1,i=jkmax(0,s(cja,civ)s(cia,civ)+Δ
Δ \Delta Δ是边缘超参数, ( c i a , c i v ) (c^a_i,c^v_i) (cia,civ)为正样本音视组合, ( c j a , c i v ) (c^a_j,c^v_i) (cja,civ)为负样本音视组合, c j a c^a_j cja表示负音频样本, s ( ⋅ , ⋅ ) s(\cdot,\cdot) s(,)是余弦相似度。

实施

训练

  • 学习率:10−4
  • 优化器:Adam
  • 批大小:64
  • 迭代轮数:25000

测试

聚类效果评估

  • 音频数据集:ESC-50
  • 图像数据集:Pascal VOC 2007
  • 评价指标:准确率
  • 利用提取的音频/视频表征向量训练出多类one-vs-all线性支持向量机

音视相关性评估

  • 声音定位:数据集为带标注的SoundNet-Flickr,评价指标为cIoU和AUC
  • 声音事件检测:DCASE2017声学挑战,评价指标为基于分段的F评分和错误率

结果

音视特征聚类效果评估:
在这里插入图片描述
声源定位:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值