题目:Building an Open-Vocabulary Video CLIP Model With Better Architectures, Optimization and Data
构建具有更好架构、优化和数据的开放词汇视频CLIP模型
作者:Zuxuan Wu; Zejia Weng; Wujian Peng; Xitong Yang; Ang Li; Larry S. Davis; Yu-Gang Jiang
摘要
尽管对比语言-图像预训练(CLIP)在零样本图像识别中取得了显著成果,但在探索其零样本视频识别潜力方面的努力却很有限。本文提出了Open-VCLIP++,这是一个简单但有效的框架,它将CLIP适应为强大的零样本视频分类器,能够在测试期间识别新颖的动作和事件。Open-VCLIP++对CLIP进行最小化修改,以捕捉视频中的时空关系,从而创建专门的视频分类器,同时努力实现泛化。我们正式证明,训练Open-VCLIP++等同于没有历史数据的持续学习。为了解决这个问题,我们引入了插值权重优化,这是一种在训练和测
订阅专栏 解锁全文
114

被折叠的 条评论
为什么被折叠?



