青稞Talk主页:qingkelab.github.io/talks
所有直播回放:https://appodzjvyp51702.h5.xiaoeknow.com
随着大语言模型的兴起,多模态大模型也取得了显著进步,推动了复杂的视觉语言对话和交互,弥合了文本与视觉信息之间的鸿沟。然而,现有的开源模型与商用闭源模型(如GPT-4o和Gemini 1.5 Pro)之间的能力差距仍然显著。
InternVL 2.0,中文名称为"书生·万象”,是“开源社区最强多模态大模型”。其涵盖图像,视频,文字,语音、三维点云等5种模态,首创渐进式对齐训练,实现了首个与大语言模型对齐的视觉基础模型,通过模型”从小到大”、数据”从粗到精"的渐进式的训练策略,以1/5成本完成了大模型的训练。
InternVL 2.0 在有限资源下展现出卓越的性能表现,横扫国内外开源大模型,媲美国际顶尖商业模型,同时也是国内首个在MMMU(多学科问答)上突破60的模型。它在数学、图表分析、OCR等任务中,更是取得了可比肩GPT-4o、Gemini 1.5 Pro等闭源商用大模型的性能。
8月6日晚7点,青稞Talk第18期,香港中文大学博士后、上海人工智能实验室青年科学家、“书生”系列视觉基础模型核心开发者王文海,将直播分享《InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界》。
他将和大家一起探讨图文多模态大模型的基本原理和技术,如何利用开源套件构建强大的多模态大模型,研究如何通过渐进式策略扩展开源多模态模型的性能边界,以缩小开源模型与商业闭源模型在多模态理解方面的能力差距。
Talk信息
主讲嘉宾
王文海,南京大学博士,香港中文大学博士后,上海人工智能实验室青年科学家,研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文,其中19篇为一作/共一/通信。研究成果获得了总共超1.8万次引用,单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文,一次入选Zeta Alpha 2022年百篇最高引AI论文。入选斯坦福大学2023年度全球前2%顶尖科学家,世界人工智能大会云帆奖,CSIG优博提名。担任CSIG VI编委,IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个顶级国际会议/期刊的程序委员会委员/审稿人。
主题
InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界
提纲:
1、从LLM到VLLM,多模态大模型的基本原理和技术
2、如何利用开源套件构建强大的多模态大模型
3、基于渐进式对齐训练策略实现的视觉基础模型
4、开源、闭源模型能力探讨及InternVL 2.0 的使用
直播时间
8月6日(周二)19:00 - 20:00
参与方式
Talk 将在青稞·知识社区上进行,扫码对暗号:" 0806 ",报名进群!