GPT-4o的开源平替！腾讯开源交互式多模态基础大模型VITA

本文链接：https://blog.csdn.net/QingKeLab/article/details/142856091

关注公众号：青稞AI，第一时间学习最新AI技术
🔥青稞Talk主页：qingkelab.github.io/talks

在这里插入图片描述

GPT-4o 的多模态基础能力和交互体验令人感到惊艳，然而开源模型很少在这两个方向均表现出色。来自腾讯优图实验室 (Tencent Youtu Lab)、南京大学 (NJU)等的研究者们最新发布了 VITA，这是第一个开源的交互式多模态大语言模型，它能够同时处理和分析视频、图像、文本和语音模态，同时具有先进的多模态交互体验。

VITA 深度解读可参考：腾讯优图开源多模态大模型VITA : GPT-4o的简易平替！

在这里插入图片描述

VITA 以 Mixtral 8x7B作为语言基座，扩大其汉语词汇量，然后进行中英双语微调，并进一步的通过多模态对齐和指令微调两阶段赋予语言模型视觉和语音理解能力。VITA 展示了强大的多语言、视觉和语音理解基础能力，其在单模态和多模态基准测试中均表现出色。

在这里插入图片描述

除了基础能力之外，在增强多模式人机交互体验方面也取得了一定的进展，VITA 是第一个提出非唤醒交互和语音打断交互的多模态大语言模型，也是开源社区探索多模式理解和交互无缝集成的第一步，希望它作为先驱可以作为后续研究的基石。

10月14日19点，青稞Talk 第26期，VITA 第一作者，南京大学智能科学与技术学院研究员、助理教授、博导傅朝友，将直播分享《VITA：开源交互式多模态基础大模型》。

Talk 信息

主讲嘉宾

傅朝友，南京大学智能科学与技术学院研究员、助理教授、博导。2022年博士毕业于中国科学院自动化研究所，2022年-2024年在腾讯优图实验室担任高级研究员，作为Technology & Project Leader从事学术研究和工程落地工作。已发表JCR-1区期刊/CCF-A类会议论文共20余篇，包括两篇一作IEEE TPAMI，研究成果GitHub开源项目共计获得超过1.3万次Star。研究方向为多模态大模型、大语言模型、生物特征识别，代表性工作包括Awesome-MLLM、MME、Video-MME、MME-RealWorld和VITA。长期担任CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、IEEE TIP等国际顶级期刊和会议的审稿人。曾获中国科学院院长特别奖、IEEE Biometrics Council最佳博士学位论文奖、北京市&中科院优秀博士学位论文、2022年“阿里星”计划-P7、2022年腾讯“技术大咖”计划-T10、CVPR 2023 Outstanding Reviewer。