AVOS论文

AVOS

研究背景与问题

现有局限:传统声音源定位(SSL)等方法仅提供粗略的热力图,无法精确分割物体形状;现有数据集缺乏像素级标注,限制了精细的跨模态学习。

任务定义:AVS要求同时完成两个目标:

分割:生成发声物体的像素级掩码(二值或语义)。

语义分类:区分不同发声物体的类别(仅语义标签子集)。


贡献与创新

AVSBench数据集

包含三个子集:

单源(S4)​:单发声物体,半监督(仅首帧标注)。

多源(MS3)​:多发声物体,全监督。

语义标签(AVSS)​:70类物体,全监督语义分割。

规模:总计12,356视频,82,972标注帧,涵盖丰富场景。

基线方法

TPAVI模块​(Temporal Pixel-wise Audio-Visual Interaction):通过时间维度的像素级跨模态交互,将音频特征作为视觉分割的语义引导。

正则化损失(LAVM)​:约束音频与视觉特征的分布一致性,增强跨模态对齐。

任务设置

S4​(半监督单源分割)、MS3​(全监督多源分割)、AVSS​(全监督语义分割)。


实验结果

性能优势:在S4和MS3任务中,TPAVI模型显著优于SSL、VOS和SOD方法(如PVT-v2在MS3的mIoU达54%)。

在AVSS任务中,模型在70类语义分割中表现优于视频对象分割方法(如AOT),验证了音频对语义分类的辅助作用。

关键发现

TPAVI模块过时间上下文提升分割精度,尤其在多源场景中效果显著。

预训练(单源到多源)和正则化损失(LAVM)均有效提升模型泛化性。

模型架构解析

  1. 编码器(Encoder)​

    • 视觉特征提取
      使用卷积网络(如ResNet-50)或视觉Transformer(如PVT-v2)提取多层级视觉特征。
      • 输出层级特征:Fi​∈RT×hi​×wi​×Ci​,其中(hi​,wi​)=(H,W)/2i+1,共4个层级(i=1,2,3,4)。
    • 音频特征提取
      使用预训练的VGGish网络处理音频频谱图,输出音频特征A∈RT×d(d=128)。
  2. 跨模态融合(Cross-Modal Fusion)​

    • 视觉特征后处理
      通过ASPP模块(Atrous Spatial Pyramid Pooling)增强视觉特征的感受野,生成多尺度特征Vi​。
    • 时序像素级音频-视觉交互(TPAVI模块)​
      • 音频特征对齐:将音频特征A线性变换后复制到与视觉特征Vi​相同的空间维度。
      • 注意力机制:通过点积计算音频与视觉特征的相似性矩阵αi​,加权融合后更新视觉特征:Zi​=Vi​+μ(αi​g(Vi​))
      • 作用:通过时序关联增强像素级音频-视觉对齐,动态定位发声物体。
  3. 解码器(Decoder)​

    • 采用类似Panoptic-FPN的结构,逐级融合多层级特征(Z1​,Z2​,Z3​,Z4​)。
    • 最终输出分割掩码M∈RT×H×W×K,其中K=1(S4/MS3任务)或类别数(AVSS任务)。
  4. 损失函数

    • 主损失:二元交叉熵(BCE)监督分割结果。
    • 正则化损失(LAVM​)​
      通过KL散度约束掩码区域视觉特征与音频特征的分布一致性,增强跨模态关联。

关键设计亮点

  1. TPAVI模块

    • 实现时序维度的跨模态交互,解决多源声音动态变化问题。
    • 通过像素级注意力机制,精准关联音频信号与视觉对象(如图12中的热力图所示)。
  2. 多任务适应性

    • S4/MS3任务:输出二值掩码,通过Sigmoid激活。
    • AVSS任务:输出语义分割图,通过Softmax分类,支持70类语义标签。
  3. 预训练策略

    • 在单源数据上预训练模型,提升多源场景下的泛化能力(如表8所示,性能提升显著)。

解决的问题与优势

  • 挑战:传统声音定位(SSL)仅提供模糊热力图,无法精确分割形状;视频分割(VOS)依赖视觉先验,难以处理动态声源。
  • 创新
    • 首次实现像素级音频-视觉联合分割,支持语义类别预测。
    • 通过TPAVI模块和AVM损失,显式建模跨模态时序依赖,提升复杂场景鲁棒性。

总结

图四的框架通过多模态特征融合时序建模,实现了从粗定位到像素级分割的跨越。其设计兼顾了单源、多源及语义分割需求,为音频驱动的视觉理解提供了新思路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值