最新的先进多模态模型 HPT(Hyper-Pretrained Transformers)

0. 资源链接

1. 要点提炼

  • HPT(Hyper-Pretrained Transformers)是HyperGAI研究团队推出的新型多模态大型语言模型框架

  • 目前包括 HPT Pro 和 HPT Air 两个不同规模的模型

    • HPT Pro:解决复杂多模态任务的最强大模型

    • HPT Air:成本效益高的解决方案,能够解决广泛的视觉和语言任务(已开源,供研究和商业使用)

  • HPT 框架可从头开始训练,也可以直接适配现有的预训练大语言模型和视觉编码器

  • HPT 1.5 Air 声称是当前性能最好的 80 亿参数多模态模型,基于不久前开源的 Llama 3 开发。在各种评测标准上达到先进性能,甚至超过部分更大私有模型。2024 年 5 月 3 日对社区开源

2. 工作原理

  • 目标:训练一个能够广泛理解复杂视觉-语言理解任务的多模态基础模型,包括进行深度推理、图表分析等任务

  • H-Former 结构是 HPT 的主要创新点,作为视觉和语言模态之间的桥梁,将视觉数据转换为语言标记,使大语言模型能理解视觉内容

  • H-Former采用双网络设计,学习视觉-语言对齐的局部和全局特征,使 HPT 能够理解细节和抽象的高级信息(细节待官方技术报告发布

3. 多模态基准测试的性能

  • HPT 在多个具有挑战性的多模态基准测试中评估了其多模态理解能力,包括需要大学水平学科知识和跨学科领域的深度推理(MMMU 和 CMMMU),或在各种视觉和语言任务中的常识和空间理解(SEED (img), MMBench, 和 MMBench-CN)

  • HPT Pro 和 HPT Air 在 SEED (img)、MMBench 和 MMBench-CN 等基准测试中展示出色的性能,并在需要大学水平知识和深度思考的 MMMU 和 CMMMU 基准测试中,在各自规模的模型中表现最佳。在多项测试中显示出了优于 GPT-4V, Gemini Pro 和 Qwen-VL 等的卓越性能

  • 尽管 HPT 模型主要在基于英语的多模态数据上训练,但它们能够很好地泛化到其他语言,如中文,这表明 HPT Pro 和 HPT Air 都具备良好的跨语言能力

  • HPT 1.5 Air 在诸如 SEED-I、SQA 和 MMStar 评测榜上性能甚至超过了 LLaVA-Next、GPT-4V 和 Gemini 1.0 Pro 等性能强大的私有模型

4. 对话效果

  • 图文问答

  • 逻辑推理

  • 创造性和想象力

5. 一些思考

  • 通过不同模态的协同学习和对齐,多模型模型在图文问答、创作等领域展现出强大的能力,是智能体(agent)走向通用人工智能(AGI)的有效途径

  • 尽管不少最先进的商业多模态大模型(如 GPT-4 等)仍闭源,但技术快速发展的同时,开源的模型也越来越多且越来越强大,这无疑是众多开发者的福音,也加速了人工智能技术普惠大众的进程

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值