- 博客(4)
- 收藏
- 关注
原创 InternVid:用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight
我们从ATUS[6]、公共视频数据集和文本语料库中定义了大约6.1K个动作短语。然后它们经过模型的精炼和手动的剔除。我们利用2017年至2022年的ATUS动作,将它们合并并去除重复项。对于参考的公共视频数据,我们利用了Kinetics [7]、SomethingSomething系列 [8,9]、UCF101 [10]等。这为我们提供了1103个动作标签。此外,我们还访问了几个grounding的数据集。
2024-08-02 17:51:03 765
原创 VideoMamba:用于高效视频理解的状态空间模型 | ECCV 2024
我们提出了一个仅基于状态空间模型(SSM)的高效视频理解架构VideoMamba,并通过大量的实验证明了它具备一系列良好的特性,包括 (1) Visual Domain Scalability;这使得VideoMamba在一系列视频benchmark上取得不俗的结果,尤其是长视频benchmark,为未来更全面的视频理解提供了更高效的方案。
2024-08-02 17:47:03 656
原创 InternVL 官方教程来了!
GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的可商用开源多模态对话模型。部署、微调、API,应有尽有哦!
2024-07-31 13:48:47 442
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人