论文解读
文章平均质量分 93
OpenGVLab
上海Al Lab通用视觉团队,专注通用视觉智能,研发国际热点工作InternVL, InternImage, InternVideo, LLaMA-Adapter,VideoChat等. 开源主页:https://github.com/OpenGVLab;加群:gvxiaozhushou
展开
-
VideoMamba:用于高效视频理解的状态空间模型 | ECCV 2024
作者:通用视频组我们提出了一个仅基于状态空间模型(SSM)的高效视频理解架构VideoMamba,并通过大量的实验证明了它具备一系列良好的特性,包括 (1) Visual Domain Scalability;这使得VideoMamba在一系列视频benchmark上取得不俗的结果,尤其是长视频benchmark,为未来更全面的视频理解提供了更高效的方案。了解InternVideo,VideoChat,UMT,VideoMAE等前沿工作哦!原创 2024-09-26 12:00:00 · 674 阅读 · 0 评论 -
A3VLM: 一种基于视觉语言模型的关节感知的通用操作解决方案 | 联培生佳作
A3VLM基于sphinx模型,通过多轮对话形式,精准理解并执行面向复杂铰链结构的机器人任务。代码和模型均已开源。原创 2024-09-26 09:00:00 · 531 阅读 · 0 评论