OpenGVLab-CSDN博客

原创基于昇腾MindSpeed MM玩转InternVL3

2025年4月16日，上海人工智能实验室（上海AI实验室）升级并开源了通用多模态大模型书生·万象3.0（InternVL3）。通过采用创新的多模态预训练和后训练方法，InternVL3 多模态基础能力全面提升，在专家级基准测试、多模态性能全面测试中，10亿~780亿参数的全量级版本在开源模型中性能均位列第一，同时大幅提升了图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

2025-04-25 10:56:45 897

原创再创开源多模态大模型性能标杆，书生·万象3.0升级发布，创新预训练方法

驱动科学研究的人工智能正逐渐改变科学研究的模式，在探索以通专融合实现通用人工智能（AGI）的进程中，通用基座大模型，尤其是具备跨模态理解能力的多模态大模型至关重要——多模态大模型的创新突破，将大幅提升模型同时处理文本、图像、视频等数据的能力，从而为科研创新提供基础性支撑。2025年4月16日，上海人工智能实验室（上海AI实验室）升级并开源了通用多模态大模型书生·万象3.0（InternVL3）。

2025-04-17 15:11:43 1033

原创书生InternVideo2.5开源，万帧长视频准确“大海捞针”，精细感知真实时空关系

近日，上海人工智能实验室（上海AI实验室）联合南京大学、中科院深圳先进技术研究院共同开源视频多模态大模型书生InternVideo2.5。在视频理解领域，全新升级的InternVideo2.5取得时间跨度与细粒度的双维提升，“记忆力”较前代模型扩容6倍，具备万帧长视频中精准“大海捞针”能力，AI视频理解既能“短平快”，亦可“长深细”。让AI得以更准确“看懂”纷繁的真实世界，更为多领域应用注入新质生产力。书生InternVideo系列模型此前已应用于中央广播电视总台。

2025-02-12 17:13:08 1037

原创 “迷你版”书生·万象大模型开源，5%参数实现九成性能，“小而美”易迁移

多模态大模型迎来“迷你版”。近日，上海人工智能实验室（上海AI实验室）与清华大学等联合团队推出Mini-InternVL多模态大模型，包括1B、2B和4B三个参数版本，满足不同需求层级。评测结果显示，Mini-InternVL-4B仅以5%的参数量，即实现了InternVL2-76B约九成性能，显著减少计算成本。为适应多领域任务，联合团队提出了简单有效的迁移学习框架，使模型知识“一键”域迁移。同时，研究人员对模型架构、数据格式和训练计划进行了标准化处理，增强了模型在特定场景中的视觉理解和推理能力。自。

2025-01-17 10:48:20 1127

原创书生·万象2.5再升级，数学推理、OCR能力大幅提升

继12月初推出全量级开源多模态大模型书生・万象2.5（InternVL2.5）后，上海人工智能实验室（上海AI实验室）进一步开源了该模型的后训练算法及训练数据，使各量级的模型性能均得到提升。其中，模型的数学推理能力和OCR能力提升最为明显，分别在MathVista和OCRBench达到了76.5%和907分。相比有监督微调，基于偏好对齐的后训练算法通过额外引入针对负样本的监督信号，可进一步提升模型的训练效果。然而，多模态领域关于偏好对齐的训练数据和实践经验仍然非常稀缺。

2024-12-30 20:11:05 1266

原创 InternVL2.5技术报告共读精彩回顾，这样的圆桌多来亿点点！

研究团队采用了数据打包、数据质量评估、重复模式过滤等数据组织技术，不仅提高了 GPU 利用率，还显著增强了测试时扩展策略的有效性，从而大幅提升了模型的性能和用户体验。值得一提的是，与大多数现有的开源多模态大语言模型在 MMMU 和 OlympiadBench 等链式推理（CoT）任务中表现不佳不同，我们的模型在这些任务中展现了卓越的性能，进一步证明了数据组织技术的有效性。渐进扩展策略在资源受限的环境中尤为有利，通过最大化预训练组件的重用，最小化冗余计算，并实现能够处理复杂视觉语言任务的高效模型训练。

2024-12-30 13:07:03 678

原创全量级开源多模态大模型书生·万象InternVL2.5全面升级

与其他采用300M或600M视觉编码器的多模态大模型相比，InternVL2.5-78B搭载了一个6B的视觉编码器，在仅使用1/10的训练数据量的情况下，实现了更优的性能。图1: 在OpenCompass榜单上，书生·万象2.5（InternVL2.5）在10亿～780亿量级多模态大模型中展示出强大的多模态能力，可与闭源模型相媲美，MMMU性能突破70%基于此现状，书生·万象2.5在训练、测试策略和数据质量等方面不断取得新突破，从而提供更强大的多模态基座模型，进而为相关学术研究和产业应用创新做出贡献。

2024-12-13 15:53:54 923

转载第八届文档分析与多模态大模型前沿理论与应用研讨会暨CSIG文档图像分析与识别专委会学术年会成功举办

参会来宾合影会议设置了丰富的学术环节，包括两场主旨报告、三场特邀报告、一场圆桌讨论以及四场青年论坛报告，为与会者提供了全方位、多视角的学术盛宴。出席开幕式的嘉宾包括：CSIG常务理事、华南理工大学，CSIG文档图像分析与识别专委会主任、北京科技大学，专委会副主任、上海人工智能实验室，专委会秘书长、北京大学，清华大学，华中科技大学等业内知名学者。

2024-12-10 14:10:09 144

原创基于AX650N/AX630C部署多模态大模型InternVL2-1B

同时也将分享基于爱芯元智的 AX650N、AX630C 两款端侧 AI 芯片适配 InternVL2-1B 的基本操作方法，向业界对端侧多模态大模型部署的开发者提供一种新的思路，促进社区对端侧多模态大模型的探索。提供丰富的开发文档，方便用户进行二次开发。输入图片越大，Vision Part（Image Encoder）生成的特征向量越多，计算量越大，即使是 InternVL2 Family 中最小的 1B 版本，其 Vision Part 也是采用的基于 ViT-Large 规模的图像编码模型。

2024-11-14 10:42:57 1463

原创基于华为昇腾910B，实战InternVL2-8B模型推理

在 0.6.0这个版本上开始支持华为昇腾NPU，本文主要讲述了如何使用 LMDeploy 推理框架在华为昇腾 910B 上实现 InternVL2-8B 模型的推理。LMDeploy 目前支持 InternVL1.5 和 InternVL2 系列的多模态模型，因为时间关系我这里只做了 2B 和 8B 模型的推理，其他模型没有做过测试。感兴趣的小伙伴也可以根据文档实现其它模型的推理和适配，我们也期待 LMDeploy推理框架支持更多更好用的多模态大模型。

2024-10-31 17:47:43 2817

原创使用InternVL、LMDeploy和GTE搭建多模态RAG系统

在我们的案例中，我们使用InternVL2分析时尚图片，并推荐可以与原始服装相配的单品。为了实现这一点，我们编写了一个提示，要求大模型对建议的物品是否与原始服装相匹配的问题，做出简单的“是”或“否”回答。最佳实践流程图如下，本文主要通过多模态RAG搜索相似的衣服，并推荐最佳搭配，其中主要考察了多模态模型的图片描述生成（稳定生成JSON格式）以及多图对比的能力。查找匹配项目：我们使用该find_matching_items_with_rag函数在过滤的数据集中查找与从分析的图像中提取的描述匹配的项目。

2024-10-22 19:22:11 1136

原创 InternVL2-40B 荣登开源模型榜首丨SuperCLUE中文多模态大模型基准10月榜单

在今年 7 月 4 日举行的 2024 WAIC 科学前沿主论坛上，书生·万象多模态大模型（InternVL 2.0）正式发布，并陆续开源了 1B、2B、4B、8B、26B、40B 以及 76B 共 7 个参数版本的模型。书生·万象支持图像、视频、文字、语音、三维点云等模态处理，具备强大的真实世界感知能力，并通过首创的渐进式对齐训练策略，实现了成本更低、性能更高。InternVL2-40B 在总榜单、基础能力榜单、应用能力榜单均居开源模型榜首。开源链接：（欢迎 star）模型链接：（欢迎使用）

2024-10-12 18:18:53 503

原创 ICLR 2024 Spotlight｜SEAL：面向真实场景超分辨率的系统性评估框架

在这项工作中，我们开发了一种新的评估框架，用于公平、全面地评估real-SR 模型。我们首先使用基于聚类的方法来模拟一个大的退化空间，并设计了两个新的评估指标--AR 和 RPR，用于对 real-SR模型在代表性的退化任务上的评估。然后，我们用提出的评估流程对现有的real-SR 方法进行基准测试，并展示了新的观察结果。最后，我们对退化聚类进行了广泛的对比研究。通过大量的实验和分析，我们证明了 SEAL 的有效性和通用性。

2024-10-12 14:00:00 839

原创最强开源多模态生成模型MM-Interleaved：首创特征同步器

最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科技、多伦多大学等多家高校、机构，共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved，借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力，支持任意穿插的图文输入和输出，带来了多模态生成大模型的崭新突破。更令人惊喜的是，MM-Interleaved 还具备根据输入的分割图和对应的文本描述生成图像的能力，并确保生成的图像与分割图在空间布局上保持一致。

2024-10-12 10:00:00 938

原创 InternVL2识别边界框实践：捕获股票K线图启明之星

本文作者：谢志军，某互联网金融证券公司，算法工程师。

2024-10-11 19:23:46 2013

原创 EMMS：高效的多模态多任务预训练模型选择器 | NeurIPS 2023

如何快速有效地针对不同任务选择预训练模型是迁移学习领域的一个重要问题。本文提出了一种高效的多任务模型选择器（EMMS），可以应用于多种类型的任务。EMMS 使用标签嵌入的基础模型，以便将不同任务的不同标签格式转换为相同的形式，并将它们视为噪声标签。为了估计模型的可转移性，EMMS 将此问题建模为简单的加权线性回归，可以使用交替最小化算法来解决。与现有方法相比，EMMS首次实现了多任务场景下的模型选择，包括图像描述、问答和视觉定位任务等，速度快，效果好。

2024-10-11 19:11:43 1111

原创 ConditionVideo: 无训练的条件引导视频生成 | AAAI 2024

作者：彭博，上海人工智能实验室与上海交大2023级联培博士。最近的工作已经成功地将大规模文本到图像模型扩展到视频领域，产生了令人印象深刻的结果，但计算成本高，需要大量的视频数据。在这项工作中，我们介绍了ConditionVideo，这是一种无需训练的文本到视频生成方法，基于提供的条件、视频和输入文本，通过利用现成的文本到图像生成方法(例如，Stable Diffusion)的功能。ConditionVideo从随机噪声或给定场景视频生成逼真的动态视频。

2024-10-11 19:05:29 1341

原创 All-Seeing: 面向开放世界的全景物体感知和通用关系理解

然而，这些工作提出的模型只能将图像作为整体进行感知，无法对其中的某个具体的区域或实例进行感知，这就导致用户和模型在针对图像中的某个实例进行提问或回答时，必须通过大量的文字描述来实现对该实例的指代，这极大地提高了交互的难度和成本。具体而言，在关系对话的过程中，文本中的所有实体和谓词会分别通过。值得注意的是，相比传统的语义图生成模型，ASMv2不仅可以通过开放式（open-ended）的方式生成语义图，从而避免受限于少数预定义的类别，也可以保留其他多模态大语言模型的通用性能，因而具有更广泛的应用范围。

2024-10-11 18:15:00 1072

原创 LeCun数十年经验之谈：视觉是建立AGI的核心，视频理解难点在哪？语言模型技术为何难以复用于视觉？

我们做视频理解多年，对LeCun谈到的难点有深刻体会，也非常赞同视觉等高维信息对于AI理解世界是至关重要的，这也许就是通向AGI的道路。不过，2024年2月19日，”人工智能教父“ Geoffrey Hinton在牛津大学的公开演讲上, 强调LLM具备真正的理解能力。

2024-10-11 14:46:24 954

原创 InternVid：用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight

我们从ATUS[6]、公共视频数据集和文本语料库中定义了大约6.1K个动作短语。然后它们经过模型的精炼和手动的剔除。我们利用2017年至2022年的ATUS动作，将它们合并并去除重复项。对于参考的公共视频数据，我们利用了Kinetics [7]、SomethingSomething系列 [8,9]、UCF101 [10]等。这为我们提供了1103个动作标签。此外，我们还访问了几个grounding的数据集。

2024-10-11 13:52:14 1394

原创详解Latte：全球首个开源文生视频DiT

为了进一步证明 Latte 的通用性能，作者将 Latte 扩展到了文生视频任务，利用预训练 PixArt-alpha [4] 模型作为空间参数初始化，按照最优设计的原则，在经过一段时间的训练之后，Latte 已经初步具备了文生视频的能力。实验表明（图 2），通过对 4 种模型变体设置相同的参数量，变体 4 相较于其他三种变体在 FLOPS 上有着明显的差异，因此 FVD 上也相对最高，其他 3 种变体总体性能类似，变体 1 取得了最优异的性能，作者计划未来在大规模的数据上做更加细致的讨论。

2024-10-11 13:38:29 1480

原创 Auto MC-Reward：使用LLM进行Minecraft智能体稠密奖励函数设计 | CVPR 2024

Minecraft是强化学习研究的重要环境，其本身仅提供稀疏的二进制值奖励函数，这使得在这类环境进行高效探索充满挑战性，智能体难以学习复杂任务。为了解决这一问题，我们提出了方法，利用大型语言模型（LLMs）自动设计稠密奖励函数，从而提高学习效率。Auto MC-Reward 包括三个组成部分：奖励设计模块、奖励评估模块和轨迹分析模块。首先，奖励设计模块根据环境信息和任务描述编写可执行Python代码形式的奖励函数。然后，奖励评估模块评估代码是否自洽且无语法和语义错误。

2024-10-10 19:52:31 1014

原创 Point2RBox, 点直接生成旋转框, 代码已集成至mmrotate | CVPR 2024

题目：Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision会议：2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

2024-10-10 19:31:30 1209

原创 SkillDiffuser：通过在扩散策略中引入技能抽象实现可理解的层次化任务规划

欢迎大家关注我们近期发表在CVPR2024上的工作《SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution》[1]

2024-10-09 13:30:00 1225

原创 ICLR 2024｜首个无损数据集蒸馏方法

在这项工作中，作者发现应该根据压缩比率控制生成样本的难度。通过应用这一思想，作者提出了第一个可以在高/低压缩率皆能保持有效的数据集蒸馏算法，并首次实现了无损数据集蒸馏，将CIFAR-10，CIFAR-100压缩到了原数据集的1/5大小而不对训练ConvNet造成性能损失。参考文献。

2024-10-09 10:30:00 1385

原创 OmniMedVQA：大规模医学VQA评测数据集

在过去的两年里，计算机视觉领域涌现出了多种不同的多模态大模型（LVLM），如BLIP2, MiniGPT4等。这些大模型在多种不同的视觉任务上取得了亮眼的效果。为了准确评估多模态大模型的能力，许多研究人员从不同角度对模型进行了评测[1，2]。结果显示，LVLM在各种多模态任务中展示了卓越的能力。但是，这些评测工作大多只关注LVLM在通用视觉任务中的效果，它们在医学领域的潜力尚未被充分探索。这些多模态大模型能否较好地解决医学领域的问题，如何准确评估多模态大模型在医学领域的能力，仍然是一个未知的问题。

2024-10-09 09:00:00 1156

原创 DCNv4：动态与稀疏操作的高效融合 | CVPR Highlight

在计算机视觉的研究征途上，我们团队一直在探索如何使卷积神经网络更加高效和强大。今年，我们在CVPR会议上发表了我们的研究成果——Deformable Convolution v4 (DCNv4)，这是对我们之前工作的一次重大升级。总体而言DCNv4比之前的DCN算子推理速度更快，收敛速度更快，最终性能更优。

2024-10-08 20:45:00 3914

原创 DIBS：通过未标记数据的伪边界生成提升密集视频字幕预测性能 | CVPR 2024

为应对上述挑战，本文提出Dive Into the BoundarieS (DIBS)框架，创新性地结合大型语言模型和优化算法，从大规模未标注视频中生成高质量事件标签，推动DVC等核心任务的进步。DIBS框架的关键组成部分包括：事件描述生成：如下图所示不同于Vid2Seq[2]直接使用原始字幕作为事件描述，DIBS利用大型语言模型（LLM），通过精心设计的任务提示，从视频字幕中提取出丰富、准确的事件描述候选。这一过程过滤掉了字幕中的无关信息和噪声，确保生成的事件描述更为聚焦、精确。

2024-10-08 19:30:00 1067

原创 MVBench多模态大模型视频理解能力基准 | CVPR Highlight

同时，基于对已有多模态模型的缺陷分析，提出了更强大的基线模型VideoChat2。近期的图像对话模型评测研究，倾向于从不同的感知和认知角度，考察模型多种能力，并基于不同的能力设计评测任务，再通过人工采集、标定数据。通过比较图像和视频任务的本质区别，联合团队确定了一种简单可扩展的方案，即首先总结基本的图像评测任务，再由这些任务出发，构建无法通过单帧有效解决的视频任务。提取取每个数据集中合适的视频长度，过短的视频往往动作幅度较小，而过长的视频包含过于复杂的上下文，问题过难会导致无法区分不同模型的能力；

2024-10-08 18:00:00 1593

原创 EgoExoLearn智能体跨视角技能学习数据集 | CVPR 2024

然而，与人类不同，训练这些 AI 智能体通常需要在类似环境中拍摄的演示视频作为训练数据，这些视频的视角还必须与 AI 智能体一致（例如，第一视角）。此外，通过与演示的比较，人类还可以评估自己的技能水平。第一视角视频捕捉了人们学习第三视角演示动作的全过程，这种视角的转换与融合，为机器模拟人类学习模式提供了宝贵的数据资源。由上海人工智能实验室，南京大学，中科院深圳先进技术研究院牵头，联合东京大学，复旦大学，浙江大学，中国科学技术大学等高校的学生和研究者，共同公布了跨视角技能学习数据集EgoExoLearn，

2024-10-08 13:27:59 751

空空如也

空空如也