WTAL
文章平均质量分 90
哈尔滨张谦蛋
i do
展开
-
WTAL(三)---Compact Representation and Reliable Classification Learning for PL-WTAL
在未来的工作中,我们还将尝试探索一些有效机制,以从相同模态中的不同类别提取和利用互补信息,从而实现更精确的时序动作定位。在本文中,我们分析了阻碍弱监督时序动作定位(WSTAL)性能的两个重要问题,即低区分度的分类学习和动作内部特征的巨大差异,并提出了一个统一框架CRRC-Net,用于稳健的点级弱监督时序动作定位。)模块,该模块利用点级注释挖掘伪训练样本进行自监督特征学习,以确保特征空间中的两个相似(或不相似)样本在另一个特征空间中也具有相似(或不相似)的特征,从而增强特征表示的紧凑性并减少动作内部变异。原创 2024-09-09 20:27:47 · 876 阅读 · 0 评论 -
CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning
按照 [39, 30, 14] 的方法,我们采用了 top-k 均值策略:对于每个类别 c,我们选取 keasy 个具有最大类别特定 T-CAS 值的片段,并计算它们的均值作为视频 Vn的类别 c 的视频级别分类分数 an;给定一个输入视频,我们首先预测其片段级别的类别激活,以形成 T-CAS,并根据第 3.4.1 节中描述的 top-k 简单分数来聚合,从而获得视频级别的预测。然而,对于接近边界的片段,它们的可靠性较低,因为它们处于动作和背景之间的过渡区域,从而导致检测模糊。原创 2024-09-01 17:03:47 · 971 阅读 · 0 评论 -
动作损失 的定义
在WSTAL中,模型仅能接收到视频级别的标签(即整个视频中包含哪些动作类别),但没有帧级别的标注。为了有效地训练模型,动作损失 La 被设计用来衡量模型在预测动作类别时的准确性。动作损失 La通常是基于类别交叉熵损失(Cross-Entropy Loss)的形式定义的,其计算公式为:C 是动作类别的总数。yc是视频的真实标签(ground truth),如果视频中包含动作 c,则 yc=1;否则 yc=0。pc 是模型预测的类别 c 出现在视频中的概率。原创 2024-09-01 15:40:41 · 1033 阅读 · 0 评论 -
Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization
这也是我们在之前的生成阶段引入跨视频对比学习的另一个原因:以增加动作和背景的差异性,从而帮助减少选择阶段中过滤掉的真正阳性提议的数量。在弱监督时间动作定位(WSTAL)中,我们仅能访问一组带有视频级标签的视频集,表示为 V={v(i),y(i)}i=1N,其中 N 是视频的总数,v(i) 和 y(i)分别代表未剪辑的视频和动作类别标签。先前的工作大多只关注提案生成(人工设计后处理阶段),忽略了在其他阶段生成更优秀提案的潜力,即使在伪标签生成阶段,生成的动作提案也因仅限于单个视频内部的信息而不够丰富。原创 2024-08-30 15:31:19 · 142 阅读 · 0 评论