
论文分享
文章平均质量分 94
Mark White
这个作者很懒,什么都没留下…
展开
-
【论文伴读】【TimeSformer】Is Space-Time Attention All You Need for Video Understanding?-Part1
原句:“We present a convolution-free approach to video classification built exclusively on self-attention over space and time.”翻译:我们提出了一种完全基于时空自注意力机制的无卷积视频分类方法。解释:强调了这是一种创新方法,完全摒弃了传统的卷积操作,只使用自注意力机制。原创 2025-01-06 10:13:31 · 1000 阅读 · 0 评论 -
【论文分享】InternVideo: General Video Foundation Models via Generative and Discriminative Learning
最近,基础模型在计算机视觉领域的各种下游任务上表现出色。然而,大多数现有的视觉基础模型仅关注图像层次的预训练和适应(adaption),这对于动态且复杂的视频层次理解任务来说是有限的。为了填补这一空白,我们通过利用生成式和判别式自监督视频学习的优势,提出了通用视频基础模型InternVideo。具体来说,InternVideo高效地探索了遮罩视频建模和视频-语言对比学习作为预训练目标,并以可学习的方式选择性地协调这两个互补框架的视频表示,以提升各种视频应用。原创 2023-07-25 19:46:30 · 3330 阅读 · 0 评论