- 博客(16)
- 收藏
- 关注
原创 Weakly-Supervised Audio-Visual Segmentation
WS-AVS通过多模态对比学习与伪监督策略,有效解决了弱监督音视分割的挑战,为多模态理解提供了新思路。其方法设计简洁高效,实验充分验证了各模块的有效性,具有较高的学术与应用价值。
2025-03-14 20:31:18
672
原创 CATR Combinatorial-Dependence Audio-Queried Transformer
设计了解耦的音视频Transformer编码模块(DAVT),通过空间融合和时间交互(A-V和V-A)捕捉音视频组合的时空依赖关系。:引入音频约束的可学习查询(learnable queries),结合音频特征生成动态卷积核,过滤出与音频相关的目标对象掩码。:注意力图显示,时间交互模块(A-V/V-A)能更精准定位目标对象(如钢琴),而空间融合可能因背景复杂产生干扰。:通过跨模态注意力机制(A-to-V和V-to-A)增强音视频特征的关联性。:通过音频约束的查询机制,增强解码阶段对目标对象的定位能力。
2025-03-11 04:00:00
473
原创 Liu_Annotation-Free_Audio-Visual_Segmentation
在AVSBench-S4上,合成数据训练的模型对“猫”“狮子”等类别表现接近真实数据训练结果(如“猫”78.81 vs. 83.87 mIoU)。:在AVSBench-S4和MS3子集上分别达到83.17和66.95 mIoU,显著超越现有方法(如AV-SAM、LGVT)。:在SAM的ViT编码器中插入轻量适配器(仅0.4%参数量),将音频特征注入视觉特征,实现深层跨模态融合。:通过类别标签对齐图像-掩码对与音频,形成(图像、音频、掩码)三元组。:合成数据预训练提升真实场景性能,为多模态分割提供新思路。
2025-03-11 02:00:00
287
原创 AVOS论文
(Temporal Pixel-wise Audio-Visual Interaction):通过时间维度的像素级跨模态交互,将音频特征作为视觉分割的语义引导。:传统声音源定位(SSL)等方法仅提供粗略的热力图,无法精确分割物体形状;:在S4和MS3任务中,TPAVI模型显著优于SSL、VOS和SOD方法(如PVT-v2在MS3的mIoU达54%)。在AVSS任务中,模型在70类语义分割中表现优于视频对象分割方法(如AOT),验证了音频对语义分类的辅助作用。:单发声物体,半监督(仅首帧标注)。
2025-03-10 21:58:54
279
原创 Audio-Visual Segmentation byExploring Cross-Modal Mutual Semantics
音频-视觉分割(AVS)任务旨在根据音频信号分割视频中的发声物体。现有方法(如TPAVI)过度依赖视觉显著性,常忽略音频信息,仅分割最显著物体。这是由于数据集中发声物体通常为显著目标,导致模型存在数据集偏差,无法根据音频动态调整分割结果。作者提出,包含两个关键模块:基于MaskFormer架构生成多个候选实例掩码。提出,缓解训练歧义:同一物体在不同视频中可能发声或静默。该损失鼓励生成更多潜在实例,避免仅关注标注的发声物体。提取音频的语义分布(类别概率),与候选实例掩码关联,生成发声概率图。
2025-03-10 21:57:43
824
原创 Annotation-free Audio-Visual Segmentation
本文通过数据合成与模型适配的双重创新,为AVS任务提供了高效解决方案,同时为多模态学习中的预训练模型迁移提供了新思路。
2025-02-27 15:23:13
339
原创 AVSegFormer: Audio-Visual Segmentation with Transformer
本文将AVSegFormer作为一种新的AVS框架,充分利用了Transformer的结构。具体地说,它包括一个稠密的音视频混合器,它可以动态地调整感兴趣的视觉特征,和一个稀疏的音视频解码器,它隐式地分离音频源,并自动匹配最佳视觉特征。结合这两个分量提供了更健壮的双向条件多模态表示,从而提高了不同场景下的分割性能。
2025-02-19 19:06:51
254
原创 Audio-Visual Segmentation by LeveragingMulti-scaled Features Learning
为了提高模型对高层次和低层次特征的捕获能力,我们实现了双跳连接。此外,在探索帧内和帧间对应性时,我们也提出一个能学习两个不同任务的集成模型:帧级分割和视频级分割。为了满足任务的不同需求,我们引入了两种模型变体,一种基于ResNet架构,另一种基于Swin Transformer模型。我们的方法利用了迁移学习和数据扩充技术。此外,我们引入了一个自定义的正则化函数,旨在增强模型对不可见数据的鲁棒性,同时通过自我监督提高分割边界的置信度。与多种代表性算法的对比实验,验证了本方法的有效性。
2025-02-17 16:48:41
415
原创 SLVP: Self-supervised Language-Video Pre-training for Referring Video ObjectSegmentation
参考视频对象分割的自监督视频预训练。
2025-01-09 19:58:30
1256
转载 【无标题】
提出方法:首先从原始的长文本表达式中删除与谓词和对象相关的文本信息,从而生成一个以主题为中心的短文本表达式。短文本表达式的掩码预测关注实例的外观,长文本表达式的掩码预测同时关注实例的外观和动作,然后引入长-短预测交集损失来调节模型对长-短文本表达式的预测。到目前为止,RVOS的性能提升主要来自于对强大的视觉特征的挖掘,例如transformer,而对语言部分的挖掘并没有得到重视。接着,短文本比长文本表达更能表达某一主题,长文本表达的掩模预测关注的是具有一定外表和动作的主体,但动作往往更受青睐。
2024-12-30 16:55:42
1859
原创 SOC: Semantic-Assisted Object Cluster forReferring Video Object Segmentatio
本文研究了通过提升视频级视觉语言对齐的参考视频对象分割,缺乏视频内容的全局视图导致难以有效地利用帧间关系和理解对象时间变化的文本描述。为了解决这个问题,本文提出了语义辅助对象集群(SOC)SOC方法通过将一组帧级对象嵌入与语言标记关联起来,促进跨模态和时间步的联合空间学习。具体来说,SOC首先聚合视频内容和文本指导,然后使用多模态对比监督来帮助构建视频级别的良好对齐的联合空间。这种方法不仅考虑了帧内的对象信息,还考虑了帧间的时序关系和文本描述,从而实现更准确的对象分割。
2024-12-21 15:45:28
549
原创 End-to-End Referring Video Object Segmentation with Multimodal Transformers端到端多模态视频对象分割
1.摘要。
2024-12-19 17:47:30
728
原创 Learning Cross-Modal Affinity for Referring Video Object SegmentationTargeting Limited Samples
参考视频对象分割(RVOS)作为一项监督学习任务,依赖于给定场景足够的标注数据。然而,在更现实的场景中,对于一个新的场景,只有最少的注释可用,这对现有的RVOS方法提出了重大挑战。考虑到这一点,我们提出了一个简单而有效的模型,该模型具有基于Transformer体系结构的新设计的跨模态亲和(CMA)模块。CMA模块通过少量样本构建多模态关联,从而快速学习新的语义信息,使模型能够适应不同的场景。由于所提出的方法针对的是有限的新场景样本,我们将问题概括为少镜头参考视频目标分割(FS-RVOS)。
2024-12-12 19:49:51
1863
原创 Language as Queries for Referring Video Object Segmentation
这篇博客介绍了港大博士生的研究,他们在论文中提出了一种新的方法——ReferFormer,用于视频对象分割任务。通过将语言表达式作为查询条件,模型能够更好地学习融合多模态特征,特别是在没有初始帧GT mask的情况下。文章讨论了Refer-DAVIS和Refer-YouTube-VOS数据集,以及模型如何通过transformer结构,特别是变形DETR,来处理语言和视觉信息。此外,还解释了如何通过共享权重的queries来实现目标的时间一致性,并探讨了训练策略和动态卷积的作用。
2024-11-30 16:43:58
572
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅