今天给大家带来最新的大模型论文,论文已开源。
【论文标题】
HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding
【论文链接】https://arxiv.org/pdf/2501.15111v1
摘要
在以人为中心的场景中,同时理解视觉和听觉信息的能力至关重要。
虽然最近的全能模型可以处理多种模态,但由于缺乏大规模的专门数据集和非针对性的架构,它们在以人为中心的场景中通常缺乏有效性。
在这项工作中,开发了 HumanOmni,这是业界首个以人为中心的全能多模态大语言模型。
本文构建了一个数据集,其中包含超过 240 万个带有详细字幕的以人为中心的视频片段和超过 1400 万条指令,有助于理解各种以人为中心的场景。
HumanOmni 包括三个专门的分支,用于理解不同类型的场景。它根据用户指令自适应地融合这些分支的特征,显著增强了在以个人为中心的场景中的视觉理解能力。
此外,HumanOmni 集成了音频特征,以确保对环境和个人的全面理解。
实验验证了 HumanOmni 在处理各种以人为中心的场景的任务中的先进能力,包括情感识别、面部表情描述和动作理解。
本文的模型将开源,以促进学术界和工业界的进一步发展和合作。
背景
在数字和智能快速发展的时代,理解以人为中心的场景变得越来越关键。
这些场景不仅包括视频聊天,还涵盖教育、医疗、社交互动和娱乐等领域。
在这些场景中,视觉和语音通常同时存在,对于某些任务,视觉和听觉信息都非常重要,比如情感识别和特定说话者的语音识别。
当前的方法主要集中在视觉-语言模型上,这些模型能有效处理视觉和文本信息,但通常缺乏处理音频输入的能力,导致对场景的理解不完整。
近年来,一些全能模型被提出用于处理多种模态数据,但这些模型往往侧重于通用场景,缺乏针对以人为中心场景的针对性训练,且未采用专门的模型设计,在理解此类场景时性能较弱。
此外,一些专门为特定任务设计的模型虽然在其目标应用中表现出有效性,但通用性较差,在更广泛、更多样化的以人为中心的场景中表现不佳。
贡献
-
构建了一个包含超过 240 万个以人为中心的视频片段的数据集。手动注释了 5 万个视频片段。
-
在 HumanOmni 中使用三个分支分别处理与面部相关、与身体相关和与交互相关的场景,然后通过指令驱动的融合模块整合这些分支的特征。实验表明,HumanOmni 在各种任务上达到了最先进的性能。
-
开发了业界首个以人为中心的全能多模态大语言模型 HumanOmni,为视频理解提供了新的解决方案,并将开源代码和模型,促进学术界和工业界的进一步发展和合作。
技术方案
图 1展示了 HumanOmni 的处理流程,它能够处理包含文本、听觉和视觉数据的多模态输入。
视觉组件:为理解以人为中心的视频内容,设计了面部相关分支、身体相关分支和交互相关分支。
面部相关分支采用细节敏感的投影仪 MLP2xGeLU,更好地捕捉面部细微变化;
身体相关分支和交互相关分支使用时空投影仪 STC,处理连续动作和交互场景。
三个分支的特征通过指令驱动的融合模块,依据用户指令动态调整权重进行融合。
利用 BERT 对用户指令进行编码,再通过两个 MLP 生成特征权重,以选择最适合任务的视觉特征。
听觉组件:遵循已有方法,使用 Whisper-large-v3 的音频预处理器和编码器处理音频数据,通过 MLP2xGeLU 将音频特征映射到文本域。
文本处理:直接使用大语言模型的文本编码器对文本进行编码。
音频、视觉和文本特征在统一的表示空间中通过特定标记连接,然后输入到 LLM 解码器进行进一步处理。
实验结果
情感识别:在基于视频片段的动态面部情感识别任务数据集 DFEW 和 MAFW 上,表 2显示 HumanOmni 显著超越现有视频-语言多模态模型、音频-语言多模态大模型、近期提出的全能模型以及该领域的专门方法。
面部表情描述:利用 DFEC 数据集评估面部表情描述能力,采用 DFEC 推荐的评估方法,表 3表明 HumanOmni 结合视频和音频输入的性能优于其他开源模型,也超过了 DFEC 中提出的 FaceTrack-MM 方法。
动作理解:从 MVBench 综合视频理解基准测试的 20 个任务中选取 6 个与人行为分析最相关的子任务进行评估
表 4显示在 MVBench 数据集上,HumanOmni 显著优于几乎所有相同参数规模的主流方法,仅少数使用完整 MVBench 数据集的方法除外。
语音识别:在 LibriSpeech、WenetSpeech 和 Fleurs 等语音识别基准测试中,表 5显示 HumanOmni 在当前全能模型中处于领先地位,但与专有语音识别方法相比仍有提升空间。
模态效果探索:评估 HumanOmni 在不同输入模态下(视频仅、音频仅、视频-音频)在情感识别、面部表情描述和动作理解任务上的性能
表 6表明在情感识别任务中,多模态配置性能最佳;
面部表情描述任务主要依赖视觉信息,仅视频输入时模型性能也不错;
动作理解任务中音频贡献有限,综合来看联合视听输入在所有任务中效果最优。
结论
开发了首个以类为中心的多模态大语言模型 HumanOmni。
构建了一个包含超过 240 万个以人为中心的视频片段的数据集,这些片段带有超过 1400 万条详细字幕和指令,有助于理解各种以人为中心的场景。
HumanOmni 具有专门的架构,包括面部相关分支、身体相关分支和交互相关分支,每个分支处理特定类别的以人为中心的场景。
通过使用用户指令引导这些分支特征的自适应融合,HumanOmni 显著提高了在各种场景下的稳健性。
此外,HumanOmni 支持联合音频和视频输入,能够更全面地理解场景。
本文通过在多个以人为中心的任务上进行广泛实验,评估了 HumanOmni 的性能,证明了其在理解复杂的以人为中心的交互方面的有效性。为了促进社区驱动的发展和进一步研究,本文将开源代码和模型。
【源码链接】
https://github.com/HumanMLLM/HumanOmni
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。