Hugging Face 推出 Idefics2,携 80 亿参数模型突破多模态关键技术

🌟欢迎大家在 GitHub 上 Star 我们:

分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg

大规模图学习系统 OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

Hugging Face 正式宣布推出 Idefics2,一款集多种功能于一身的模型,旨在从图像和文本数据中提取意义并生成相应的文本响应。Idefics2 以其独特的多功能性,为视觉问题解答、图像内容描述、基于图像构建故事、提取文档信息,以及执行基于视觉输入的数学计算等一系列任务设立了新的行业标杆。Idefics2 构建在其前身 Idefics1 的架构之上,并实现了关键突破。除了其较小的模型体积 —— 拥有 80 亿参数的精简规模 ——Idefics2 还采用了 Apache 2.0 这一开放许可,这大大提升了模型的可扩展性。其中一个显著的改进是在光学字符识别(OCR)技术方面取得的进展,即能力的显著提升。在视觉问答基准测试中,Idefics2 展示了其卓越的性能。与规模更大的同时代模型,诸如 LLava-Next-34B 和 MM1-30B-chat 竞争时,Idefics2 依然表现出了巨大竞争力,稳定其在领域内的地位。

Idefics2 能够深入整合到 Hugging Face 的 Transformer 架构中,这是其核心竞争优势之一。这一设计确保了用户可以轻松地对模型进行微调,以适应各种多模态应用场景。为了方便用户探索和实验,Hugging Face Hub 已经提供了一个相关的实验环境。此外,Idefics2 的训练策略全面深入,成功融合了多种公开数据集,包含网络文档、图像 - 标题对和 OCR 数据。模型还引入了一种名为 “The Cauldron” 的创新性微调数据集,该数据集汇集了 50 个精心选定的数据来源,专门针对全面对话训练而设计。在图像处理方面,Idefics2 采取了一种细致入微的方式,坚持保持图像原始的分辨率和宽高比,这一做法与计算机视觉传统中的图像尺寸调整习惯有着明显的区别。借助先进的 OCR 技术,Idefics2 能够熟练转录图像和文档中的文本,并在解读图表及数值信息时表现出更高的性能。Idefics2 在架构上的一大进步是通过引入学习型感知池和 MLP 模态投影技术,实现了视觉特征与语言主干的无缝融合,从而达到了整体效能的提升。作为视觉语言模型领域的一项重要突破,Idefics2 开辟了多模态交互研究的新路径,并有望成为开发复杂、情境感知人工智能系统的一个重要工具。Idefics2 所显示的性能提升和技术革新,进一步证实了将视觉和文本数据紧密整合的巨大潜力。为了支持那些有意采用 Idefics2 特性的研究者和爱好者,Hugging Face 提供了一系列详尽的微调教程供用户参考。

教程链接:

https://colab.research.google.com/drive/1NtcTgRbSBKN7pYD3Vdx1...

_如有侵权,请联系删除。_参考链接:**

https://www.artificialintelligence-news.com/2024/04/16/huggin...

关注我们

OpenSPG:

官网:https://spg.openkg.cn

Github:https://github.com/OpenSPG/openspg

OpenASCE:

官网:https://openasce.openfinai.org/

GitHub:[https://github.com/Open-All-Scale-Causal-Engine/OpenASCE]

文章推荐

哪些 idea 能打动 Y Combinator?YC Demo Day 2024,一半以上都是 AI 应用

苹果 M4 芯片强势入局,2024 末人工智能大战即将迎来新强者

MIT 研发好奇心驱动的红队模型,高效防范 AI “有毒” 信息

测试了 4 个 AI 图片检测器,识别 AI 诈骗我又有信心了

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎关注,解锁更多 AI 资讯~

  • 12
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值