自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 InternVid:用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight

我们从ATUS[6]、公共视频数据集和文本语料库中定义了大约6.1K个动作短语。然后它们经过模型的精炼和手动的剔除。我们利用2017年至2022年的ATUS动作,将它们合并并去除重复项。对于参考的公共视频数据,我们利用了Kinetics [7]、SomethingSomething系列 [8,9]、UCF101 [10]等。这为我们提供了1103个动作标签。此外,我们还访问了几个grounding的数据集。

2024-08-02 17:51:03 765

原创 VideoMamba:用于高效视频理解的状态空间模型 | ECCV 2024

我们提出了一个仅基于状态空间模型(SSM)的高效视频理解架构VideoMamba,并通过大量的实验证明了它具备一系列良好的特性,包括 (1) Visual Domain Scalability;这使得VideoMamba在一系列视频benchmark上取得不俗的结果,尤其是长视频benchmark,为未来更全面的视频理解提供了更高效的方案。

2024-08-02 17:47:03 656

原创 InternVL 官方教程来了!

GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的可商用开源多模态对话模型。部署、微调、API,应有尽有哦!

2024-07-31 13:48:47 442

原创 InternVL 2.0:多模态大模型新标杆

最强开源,不输闭源!

2024-07-29 21:07:29 734

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除