简介
提出深度多模态聚类方法,提出一种聚类方法,使用视听一致数据集,通过优化max-margin损失来将为每个音视样本划分类别,并得出簇的中心。聚类的中间变量是一个热力图,可以观察到网络关注的位置。为音视频度量余弦相似度可以确定两者的相互关系。
论文的任务
为音视特征聚类,以分类准确率作为指标分析音视频特征聚类效果;使用热力图进行声源定位任务;可视化音频和对应声谱图,试图理解其相关性。
网络结构
视觉子网使用VGG16,音频子网使用VGGish。
深度多模态聚类(DMC)
- 输入:每个模态的特征向量: { u 1 a , u 2 a , . . . , u q a , ∣ u i a , ∈ R n } \{u^a_1,u^a_2,...,u^a_q,|u^a_i,\in R^n\} {u1a,u2a,...,uqa,∣uia,∈Rn}, { u 1 v , u 2 v , . . . , u p v , ∣ u i v , ∈ R n } \{u^v_1,u^v_2,...,u^v_p,|u^v_i,\in R^n\} {u1v,u2v,...,upv,∣uiv,∈Rn}
- 输出:每个模态的中心向量: { c 1 a , c 2 a , . . . , c k a , ∣ c j a , ∈ R m } \{c^a_1,c^a_2,...,c^a_k,|c^a_j,\in R^m\} {c1a,c2a,...,cka,∣cja,∈Rm}, { c 1 v , c 2 v , . . . , c k v , ∣ c j v , ∈ R m } \{c^v_1,c^v_2,...,c^v_k,|c^v_j,\in R^m\} {c1v,c2v,...,ckv,∣cjv,∈Rm}
- 初始化距离 d i j a = d i j v = 0 d^a_{ij}=d^v_{ij}=0 dija=dijv=0
- 对于
t
t
t从1到
T
T
T(迭代轮数),
{
a
,
v
}
\{a, v\}
{a,v}中的
x
x
x,循环
- 对于
i
i
i从1到
q
(
p
)
q(p)
q(p)(特征维度数目),
j
j
j从1到
k
k
k(聚类中心数),循环
- 更新权重: s i j x = softmax ( − d i j x ) s^x_{ij}=\textbf{softmax}(-d^x_{ij}) sijx=softmax(−dijx)
- 更新中心: c j x = ∑ i = 1 p s i j x W j u i x c^x_j=\displaystyle\sum_{i=1}^p s^x_{ij}W_ju^x_i cjx=i=1∑psijxWjuix
- 更新距离: d i j x = − ⟨ W j u i x , c j x ∥ c j x ∥ ⟩ d^x_{ij}=-⟨W_ju^x_i,\frac{c^x_j}{\|c^x_j\|}⟩ dijx=−⟨Wjuix,∥cjx∥cjx⟩(内积)
- 结束
- 对于
i
i
i从1到
q
(
p
)
q(p)
q(p)(特征维度数目),
j
j
j从1到
k
k
k(聚类中心数),循环
- 结束
损失函数
l
o
s
s
=
∑
i
=
1
,
i
≠
j
k
max
(
0
,
s
(
c
j
a
,
c
i
v
)
−
s
(
c
i
a
,
c
i
v
)
+
Δ
loss=\displaystyle\sum^k_{i=1,i\not=j}\text{max}(0,s(c^a_j,c^v_i)-s(c^a_i,c^v_i)+\Delta
loss=i=1,i=j∑kmax(0,s(cja,civ)−s(cia,civ)+Δ
Δ
\Delta
Δ是边缘超参数,
(
c
i
a
,
c
i
v
)
(c^a_i,c^v_i)
(cia,civ)为正样本音视组合,
(
c
j
a
,
c
i
v
)
(c^a_j,c^v_i)
(cja,civ)为负样本音视组合,
c
j
a
c^a_j
cja表示负音频样本,
s
(
⋅
,
⋅
)
s(\cdot,\cdot)
s(⋅,⋅)是余弦相似度。
实施
训练
- 学习率:10−4
- 优化器:Adam
- 批大小:64
- 迭代轮数:25000
测试
聚类效果评估
- 音频数据集:ESC-50
- 图像数据集:Pascal VOC 2007
- 评价指标:准确率
- 利用提取的音频/视频表征向量训练出多类one-vs-all线性支持向量机
音视相关性评估
- 声音定位:数据集为带标注的SoundNet-Flickr,评价指标为cIoU和AUC
- 声音事件检测:DCASE2017声学挑战,评价指标为基于分段的F评分和错误率
结果
音视特征聚类效果评估:
声源定位: