宣传下InternVL2，最好的开源多模态基础模型

最新推荐文章于 2024-10-08 03:45:00 发布

自动驾驶之心

最新推荐文章于 2024-10-08 03:45:00 发布

阅读量605

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247619370&idx=3&sn=a6473a32aa4d64f9b5b3686e661cb9da&chksm=cf5b660afe5e803c1d52740e68944daa5aea8cedabd5509b55937810f2bb0430a947850a9172&scene=126&sessionid=0

版权

作者 | 代季峰编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/710003499

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大语言模型』技术交流群

本文只做学术分享，如有侵权，联系删文

最近忙完了WAIC，有空写个帖子，宣传下InternVL2，最好的开源多模态基础模型，以及介绍下背后的几篇论文：

第一篇：

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

世界上最大的图文交错数据集，支持我们模型的训练

第二篇：

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

首创多模态信息压缩学习，首次支持互联网尺度图文交错数据端到端预训练算法

第三篇：

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

https://arxiv.org/abs/2406.08394

VisionLLM v2通用任务解码器（强化模型专项能力）：首创向量链接技术，连接多模态大模型和各领域专用模型，通专结合，拓展多模态大模型的基础能力

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频