多模态任务之视听事件定位（AVEL）算法解读及源码——Cross-modal Background Suppression for Audio-Visual Event Localization

樱花的浪漫

已于 2024-04-13 20:20:11 修改

阅读量1.2k

点赞数 3

分类专栏：对比学习、多模态、扩散模型文章标签：算法计算机视觉人工智能深度学习

于 2023-03-11 21:26:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52053775/article/details/129407888

版权

对比学习、多模态、扩散模型专栏收录该内容

15 篇文章 17 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

数据及源码链接见文末

视听事件定位，即以视频信息和音频信息作为输入，模型确定事件的存在和可见事件，并将其定位在时间维度上的边界。其主要的挑战有：

i).在合并互补的音频和视觉特征时，同时保留特定于模态的信息并不是简单的。
ii).无约束视频中存在的突发噪声和复杂背景会阻碍对事件类别的预测。
iii).视听信息不同步的问题会误导事件边界预测。

早期的研究主要集中于解决第一个挑战，在独立处理每种模态的信息后，简单地融合每个或对齐视听信息，然后通过交叉注意融合它们。然而，噪声问题和视听事件不同步的问题依旧是一个很大问题。这篇研究主要致力于解决这两个问题。

而在AVE任务中，不同于单模态任务，AVE任务可能出现在一种模态下将视频片段视为前景，但实际上它可能是背景片段，因为在另一种模态中缺少相关信息。此外，噪声存在于多个模态，这也给任务带来了挑战。

因此，首先从两个方面来定义“背景”类别： 1)如果小视频片段中的视听信息不代表同一事件，则该视频片段将被标记为背景。2)如果一个事件只在一种模式中发生，但在另一种模式中概率较低，那么这个事件类别将被标记为本视频的背景，即屏幕外的声音。

因此，这项研究提出了一种新的跨模态背景抑制方法，

了解本专栏

超级会员免费看

樱花的浪漫

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
多模态任务之视听事件定位（AVEL）算法解读及源码——Cross-modal Background Suppression for Audio-Visual Event Localization

在弱监督任务中，只有整个视频的分类标签，输出层预测为C+1，+1是因为is_event_scores不能再用于计算每一秒的前景和背景分类损失，只能计算整个视频的前景和背景分类损失。top-K mean操作，即我们对每一个视频，取出分数最高的4s的视频特征和音频特征，取平均，代表整个视频的分数（整个事件，在这个数据集中，一个视频对应一个分类），这样就排除了干扰。SENet 等提出的空间注意力和通道注意力，获得视频图像数据的初步特征，对于输入的音频数据，使用RNN进行特征提取获得初步的特征。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

樱花的浪漫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。