简介
提出一种无监督算法来解决视觉场景中声源的定位问题。提出带有注意力的双流结构网络,收集了新数据集。由于无监督方法会产生错误,因此将上述方法扩充为有监督和半监督方法。未考虑运动的情况。
贡献
(1)介绍了一种学习框架,利用声音信息引导的注意力机制,从配对的声音和视频帧中定位声源。声源定位可以与给定的声音输入交互。
(2)提出了一个统一的端到端深度卷积神经网络结构,它适应了无监督、半监督和全监督学习。
(3)收集并标注了一个新的声源定位数据集,它提供了有监督的信息,便于定量和定性分析。
(4)定量和定性地证明了基于学习的声源定位不能用纯无监督的方法来正确解决,而是可以用少量的监督数据来解决。
(5)学习的embedding能够表示跨域样本中的语义上下文。
(6)提出了一种声音引导的360°视频和360°内容浏览显著性预测的新应用
(7)给出了相当多有重要意义的参考文献(relate work生理学心理学、音视融合技术)
网络结构
音视频分别处理
音视网络
声音网络: 以原始波形作为输入,一共10层,其中卷积结构为8层,结构与SoundNet类似,1000个滤波器,之后是GAP,输出1000维特征
f
s
\textbf{f}_s
fs,
f
s
\textbf{f}_s
fs再送入ReLU+FC,输出512维特征
h
\textbf{h}
h。
视觉网络: 由特征提取器和定位模块组成,特征提取器使用VGG-16的conv5_3层的512维输出
V
\textbf{V}
V,随后在定位模块与
h
\textbf{h}
h相互作用,返回声源的置信度图和特征向量
z
\textbf{z}
z,
z
\textbf{z}
z再通过两个FC层生成
f
v
\textbf{f}_v
fv
定位网络
将
H
’
×
W
’
×
D
H’×W’×D
H’×W’×D的视觉特征变形为
M
×
D
M×D
M×D的
V
=
[
v
1
;
.
.
.
;
v
M
]
\textbf{V}= [\textbf{v}_1;...;\textbf{v}_M]
V=[v1;...;vM],对于每个
i
∈
{
1
,
.
.
.
,
M
}
i∈\{1,...,M\}
i∈{1,...,M},
g
att
g_\text{att}
gatt使用内积操作,可以解释为度量两个向量之间的余弦相似度。
为了抑制负相关,提出了
其中v和h被应用了L2正则化。
g cos g_\text{cos} gcos和 g ReLu g_\text{ReLu} gReLu貌似在后文没出现过,可能 g cos g_\text{cos} gcos就是 g att g_\text{att} gatt,但不知道为啥要区分写
我们把视觉特征向量
z
\textbf{z}
z转换为视觉表征
f
v
\textbf{f}_v
fv。我们调整
f
v
\textbf{f}_v
fv使其与从声音网络中获取的声音特征
f
s
\textbf{f}_s
fs具有可比性,如此我们学习特征来共享embedding空间。在学习阶段,反向传播使得
z
\textbf{z}
z与声音上下文相关。重要的是,
z
\textbf{z}
z由
α
\alpha
α和
v
\textbf{v}
v参数化,而
α
\alpha
α是唯一受声音上下文限制的变量,
α
\alpha
α学会了以包含声音上下文的方式调整
z
\textbf{z}
z,即学习定位声音。
就是说: f v \textbf{f}_v fv是 z \textbf{z} z经两层FC得来的,而 z \textbf{z} z又是由 α \alpha α和 v \textbf{v} v得到的, α \alpha α又与声音有关,因此网络可以学习定位声音,且能够使 f v \textbf{f}_v fv和 f s \textbf{f}_s fs具有相关性
损失函数
无监督学习
使用视听一致的方法创建正例和负例(音视同源为正样本,音视不同则为负样本),将视频帧中的
f
v
\textbf{f}_v
fv当作query,给定queries与正例和负例,使用triplet损失。
损失被设计为利用query将正样本映射到尽可能与相似位置,而将负样本映射到较远的位置。
triplet网络这样计算两者的距离:
T
(
⋅
)
T(\cdot)
T(⋅)代表triplet网络,
(
x
,
x
+
,
x
−
)
(x, x^+, x^-)
(x,x+,x−)代表query,正样本和负样本。为了强加约束
d
+
<
d
−
d^+<d^-
d+<d−,使用distance ratio loss。无监督损失函数定义为:
对于正例,无监督损失强制使
f
v
\textbf{f}_v
fv与
f
s
\textbf{f}_s
fs相似,为了使视觉特征
z
\textbf{z}
z生成这样的
f
v
\textbf{f}_v
fv,权重
α
α
α需要通过
h
\textbf{h}
h和
v
\textbf{v}
v之间的相关性来选择因果位置。这导致
h
\textbf{h}
h与
v
\textbf{v}
v共享embedding空间,并且
f
s
\textbf{f}_s
fs还需要编码与视频帧相关的上下文信息。
半监督学习
L
(
f
v
,
f
s
+
,
f
s
−
,
α
,
α
GT
)
=
L
U
(
f
v
,
f
s
+
,
f
s
−
)
+
λ
(
α
GT
)
⋅
L
S
(
α
,
α
GT
)
L(\textbf{f}_v,\textbf{f}_s^+,\textbf{f}_s^-,\alpha,\alpha_{\text{GT}})=L_U(\textbf{f}_v,\textbf{f}_s^+,\textbf{f}_s^-)+\lambda(\alpha_{\text{GT}})\cdot L_S(\alpha,\alpha_{\text{GT}})
L(fv,fs+,fs−,α,αGT)=LU(fv,fs+,fs−)+λ(αGT)⋅LS(α,αGT)
L
U
L_U
LU,
L
S
L_S
LS分别代表无监督和监督学习的损失,
α
GT
\alpha_{\text{GT}}
αGT代表
GT
\text{GT}
GT注意力映射,
λ
(
⋅
)
\lambda(\cdot)
λ(⋅)是控制数据监督类型的函数。无监督损失同上,监督损失为:
L
S
(
α
,
α
GT
)
=
−
∑
i
α
GT
,
i
log
(
α
i
)
L_S(\alpha,\alpha_\text{GT})=-\sum_i\small{\alpha_{\text{GT},i}\log(\alpha_i)}
LS(α,αGT)=−∑iαGT,ilog(αi),
i
i
i是注意力映射的位置索引,
α
GT
,
i
\alpha_{\text{GT},i}
αGT,i是二进制值。
实施
训练
优化器:Adam,批大小:30,学习率1e-4,图像尺寸为320×320
数据集:Flickr-SoundNet,包含200万对无约束视频,使用随机挑选的144k对来训练
测试
将bbox标注转换为二值图
{
b
j
}
j
=
1
N
\{\text{b}_j\}^N_{j=1}
{bj}j=1N,N是主体的数量。我们通过跨主体压扁
{
b
j
}
\{\text{b}_j\}
{bj}提取得分图
g
\text{g}
g,但将共识(consensus)视作
g
=
min
(
∑
j
=
1
N
b
j
#consensus
,
1
)
\textbf{g}=\min(\sum^N_{j=1}\frac{\textbf{b}_j}{\text{\#consensus}},1)
g=min(∑j=1N#consensusbj,1),其中
#consensus
≤
N
\text{\#consensus}≤N
#consensus≤N是达成协议的最低意见数。对于得分图
g
\textbf{g}
g的每个像素,我们计算正样本的二进制值(
∑
j
=
1
n
b
j
\sum^n_{j=1}{\textbf{b}_j}
∑j=1nbj)。如果大于等于
#consensus
\text{\#consensus}
#consensus,
g
\textbf{g}
g的像素置为满分,即1。否则置为小于1的比例分数。由于是三个人打标签,根据多数原则将
#consensus
\text{\#consensus}
#consensus设为2。给定加权得分图
g
\textbf{g}
g和预测的位置响应
α
α
α,将cIoU定义为
其中
i
i
i指映射的像素索引,
τ
τ
τ指确定每个像素置信值的阈值,
A
(
τ
)
=
{
i
∣
α
i
>
τ
}
A(τ)=\{i|α_i>τ\}
A(τ)={i∣αi>τ},
G
(
τ
)
=
{
i
∣
g
i
>
0
}
G(τ)=\{i|g_i>0\}
G(τ)={i∣gi>0},
A
A
A是注意力值高于阈值
τ
τ
τ的一组像素,
G
G
G是在加权GT中被分类为正例的一组像素,分母指
A
(
τ
)
A(τ)
A(τ)和
G
G
G的union的加权版本。
这其实就是: g g g:三个人画GT框,每个被框住的像素记1分,计算三个框的总得分,结果除以2,高于1的记为1。cIoU是:分子:attention图在 g g g上的累积得分,分母:这张图 g g g的总分+除了 g g g区域以外attention区域的像素数量
结果
监督/半监督
无监督学习:在metric上表现较好,但存在语义间不匹配的现象。是由于模型在开始时随机关注了错误的位置,但在弱监督学习的metric上确是正确的,在后期训练时不断增强这种关联。
无监督:10k就已学到知识,144k时有明显改善
有监督:2.5k就已取得比无监督更好的效果。模型从监督和无监督的数据组合中受益更多,1k监督就已取得较好效果,而简单增加监督样本的数量不能很好的改善。未标注数据中存在互补信息,有利于模型的泛化。
无监督比例稍大一些效果更好
环境声音的影响
使用ReLU+Softmax能够更好抑制环境声音带来的图像强激活值。这是因为注意力图是基于归一化向量之间的内积计算的,归一化向量的范围在[−1,1]内
学习的embedding
原文:
学到的embeddings。 我们的网络生成可用于分析学到表征的有效性的embedding。正如第四节所讨论的,当声音和图像具有相似的语义内容时,我们的网络被训练成 通过映射到学到的embedding空间中的接近位置 来从声音和图像 获得相似的预测。例如,如果学习得当,足球比赛图像的嵌入将接近于其他体育游戏的embedding,而不是乐器课的embedding。为了便于说明,我们稍微滥用了视觉和声音嵌入的符号作为函数形式,即
f
v
(
X
v
,
X
s
)
\textbf{f}_v(X_v, X_s)
fv(Xv,Xs)和
f
s
(
X
s
)
\textbf{f}_s(X_s)
fs(Xs),其中
X
{
v
,
s
}
X_{\{v, s\}}
X{v,s}表示一个输入样本
X
X
X的视频帧和声波。我们注意到,这两个嵌入被鼓励拥有一个共享空间,允许它们通过度量学习进行比较。因此,我们可以直接比较由不同成分形构成的embedding。我们在表4中的Set1子集上进行了所有的实验,并将其记为数据库
D
D
D。我们分析了表6中embedding语义质量,进行了基于声音query的视频检索和基于视频query的声音检索,并报告了语义上有意义的匹配成功率。给定query
X
X
X,我们通过测量数据库
D
D
D中样本
Y
Y
Y的距离
d
(
f
s
(
X
s
)
,
f
v
(
Y
v
,
Y
s
)
)
d(\textbf{f}_s(X_s), \textbf{f}_v(Y_v, Y_s))
d(fs(Xs),fv(Yv,Ys))来执行k近邻搜索,即
Y
∈
D
Y∈D
Y∈D,其中
d
(
⋅
)
d(\cdot)
d(⋅)表示余弦距离,因为我们根据经验发现它的性能更高。然而,由于我们没有GT信息,所以我们使用伪标签方法,根据模态类型从预训练的VGG-16和SoundNet中获得每个样本的前10个标签预测,并将它们用作伪标签。当query和k近邻之间的伪标签的交集不为空(即,如果它们至少具有一个共享预测标签)时,我们认为匹配成功,否则认为匹配失败。我们在随机试验的基础上计算随机机会(chance)(由于真实类别未知,无法获得理想的随机机会)。对于每个样本,我们从我们的数据库中随机选择10个样本进行实验。我们重复这个实验100次,并报告平均分数。两个交叉模态,即图像→音频和音频→图像,执行相同的过程。性能TOP-20<TOP-15<TOP-10的原因是,在有限检索集中,存在样本数小于n的类。如果n<<k,则在检索到的前k个样本中会出现更多具有无关内容的样本。
图11展示了语义上与查询匹配的相邻样本。在第三排,我们的模型不仅定位了彼此靠得很近的“足球”样本,还映射了“一群人”或“绿地上的一群人”的场景,在这里query也可以被感知地看作是草地上的一群人。
此外,在图12中,我们还分析了embedding
f
v
\textbf{f}_v
fv在不同输入下的关联行为。具体地说,在给定query
X
X
X的情况下,我们执行与上述相同的实验,但使用
d
(
f
v
(
X
v
,
X
s
)
,
f
v
(
X
v
,
Y
s
)
)
d(\textbf{f}_v(X_v,X_s), \textbf{f}_v(X_v, Y_s))
d(fv(Xv,Xs),fv(Xv,Ys))或
d
(
f
v
(
X
v
,
X
s
)
,
f
v
(
Y
v
,
X
s
)
)
d(\textbf{f}_v(X_v,X_s), \textbf{f}_v(Y_v, X_s))
d(fv(Xv,Xs),fv(Yv,Xs))。对于第一种情况,根据数据库中的样本,由于每个帧相同但对应的声音不同,所以与query最近的邻居是那些具有与query相似的音频信息的邻居。注意,这与声音检索不同,因为通过关联
f
v
(
X
v
,
Y
s
)
\textbf{f}_v(X_v,Y_s)
fv(Xv,Ys),我们期望丢弃
Y
s
Y_s
Ys中与
X
v
X_v
Xv无关的上下文信息。第二种情况是保持声音不变,但使用不同的帧。在此场景中,我们期望丢弃与
X
s
X_s
Xs中声音上下文无关的
Y
v
Y_v
Yv的视觉上下文信息,从而检索到所选的语义上下文。实验结果表明,该模型在有条件输入的情况下具有较好的语音定位性能,并能学习语义视听对应关系。
给定query X X X(包含视频帧和声音),通过测量样本 Y Y Y的余弦距离 d ( f s ( X s ) , f v ( Y v , Y s ) ) d(\textbf{f}_s(X_s), \textbf{f}_v(Y_v, Y_s)) d(fs(Xs),fv(Yv,Ys))来进行k近邻搜索。即,给定一个声音特征 f s \textbf{f}_s fs,在对应数据集中搜索对应的音视融合特征 f v \textbf{f}_v fv。当“query”的图像/声音类别和“近邻”的图像/声音的预测类别之间至少有一组相同时认为匹配成功,反之失败。性能TOP-20<TOP-15<TOP-10的原因是,在有限检索集中,存在样本数小于n的类。如果n<<k,则在检索到的前k个样本中会出现更多具有无关内容的样本。
当使用query的图像Y的声音或query的声音Y的图像时,也能找到与query相匹配的Y。