0. 资源链接
-
官方博客
-
代码 & 模型
1. 要点提炼
-
HPT(Hyper-Pretrained Transformers)是HyperGAI研究团队推出的新型多模态大型语言模型框架
-
目前包括 HPT Pro 和 HPT Air 两个不同规模的模型
-
HPT Pro:解决复杂多模态任务的最强大模型
-
HPT Air:成本效益高的解决方案,能够解决广泛的视觉和语言任务(已开源,供研究和商业使用)
-
-
HPT 框架可从头开始训练,也可以直接适配现有的预训练大语言模型和视觉编码器
-
HPT 1.5 Air 声称是当前性能最好的 80 亿参数多模态模型,基于不久前开源的 Llama 3 开发。在各种评测标准上达到先进性能,甚至超过部分更大私有模型。2024 年 5 月 3 日对社区开源
2. 工作原理
-
目标:训练一个能够广泛理解复杂视觉-语言理解任务的多模态基础模型,包括进行深度推理、图表分析等任务
-
H-Former 结构是 HPT 的主要创新点,作为视觉和语言模态之间的桥梁,将视觉数据转换为语言标记,使大语言模型能理解视觉内容
-
H-Former采用双网络设计,学习视觉-语言对齐的局部和全局特征,使 HPT 能够理解细节和抽象的高级信息(细节待官方技术报告发布
3. 多模态基准测试的性能
-
HPT 在多个具有挑战性的多模态基准测试中评估了其多模态理解能力,包括需要大学水平学科知识和跨学科领域的深度推理(MMMU 和 CMMMU),或在各种视觉和语言任务中的常识和空间理解(SEED (img), MMBench, 和 MMBench-CN)
-
HPT Pro 和 HPT Air 在 SEED (img)、MMBench 和 MMBench-CN 等基准测试中展示出色的性能,并在需要大学水平知识和深度思考的 MMMU 和 CMMMU 基准测试中,在各自规模的模型中表现最佳。在多项测试中显示出了优于 GPT-4V, Gemini Pro 和 Qwen-VL 等的卓越性能
-
尽管 HPT 模型主要在基于英语的多模态数据上训练,但它们能够很好地泛化到其他语言,如中文,这表明 HPT Pro 和 HPT Air 都具备良好的跨语言能力
-
HPT 1.5 Air 在诸如 SEED-I、SQA 和 MMStar 评测榜上性能甚至超过了 LLaVA-Next、GPT-4V 和 Gemini 1.0 Pro 等性能强大的私有模型
4. 对话效果
-
图文问答
-
逻辑推理
-
创造性和想象力
5. 一些思考
-
通过不同模态的协同学习和对齐,多模型模型在图文问答、创作等领域展现出强大的能力,是智能体(agent)走向通用人工智能(AGI)的有效途径
-
尽管不少最先进的商业多模态大模型(如 GPT-4 等)仍闭源,但技术快速发展的同时,开源的模型也越来越多且越来越强大,这无疑是众多开发者的福音,也加速了人工智能技术普惠大众的进程