视频理解
文章平均质量分 95
OpenGVLab
上海Al Lab通用视觉团队,专注通用视觉智能,研发国际热点工作InternVL, InternImage, InternVideo, LLaMA-Adapter,VideoChat等. 开源主页:https://github.com/OpenGVLab;加群:gvxiaozhushou
展开
-
InternVid:用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight
我们从ATUS[6]、公共视频数据集和文本语料库中定义了大约6.1K个动作短语。然后它们经过模型的精炼和手动的剔除。我们利用2017年至2022年的ATUS动作,将它们合并并去除重复项。对于参考的公共视频数据,我们利用了Kinetics [7]、SomethingSomething系列 [8,9]、UCF101 [10]等。这为我们提供了1103个动作标签。此外,我们还访问了几个grounding的数据集。原创 2024-08-02 17:51:03 · 765 阅读 · 0 评论 -
VideoMamba:用于高效视频理解的状态空间模型 | ECCV 2024
我们提出了一个仅基于状态空间模型(SSM)的高效视频理解架构VideoMamba,并通过大量的实验证明了它具备一系列良好的特性,包括 (1) Visual Domain Scalability;这使得VideoMamba在一系列视频benchmark上取得不俗的结果,尤其是长视频benchmark,为未来更全面的视频理解提供了更高效的方案。原创 2024-08-02 17:47:03 · 656 阅读 · 0 评论