强大的8B 视觉语言模型|Idefics2介绍

Hugging Face 首次发布了其 Idefics 视觉语言模型,该模型于2023年首次亮相,采用了最初由 DeepMind 开发的技术。如今,Idefics 迎来了升级,新版本 Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别(OCR)能力。目前,用户可以在 Hugging Face 平台上使用 Idefics2。

01 Idefics2是什么

ldefcs2是ldefics1的升级版,共有80亿参数,许可协议为Apache 2.0,光学字符识刖(OCR)能力也得到了大幅增强。这无疑为广大开源社区从事多模态研究提供了一个强大的基础模型。值得一提的是,ldefics2已经在Hugging Face的Transformers中集成,便于开发者进行后续的细分任务微调。

Idefics 的全称是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS,是一款通用的多模态模型,可以对文本和图像提示作出响应。与前身80亿参数规模的 Idefics 相比,Idefics2的规模缩小了十倍,仅有80亿,与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当。

除了核心功能外,Idefics2承诺提供更好的图像处理能力,支持高达980x980像素和原生长宽比的图像操作。图像无需调整大小以适应固定的正方形比例,这在传统的计算机视觉中是常见的操作。

通过整合从图像或文档中转录文本生成的数据,OCR 能力得到了增强。Hugging Face 团队还改进了 Idefics 对图表、图形和文档问题的回答能力。

图片

02 技术的创新

从技术细节来看,ldefics2在多个方面实现了创新:

该模型的架构经过简化,摒弃了 Idefics1的门控交叉关注。Hugging Face 在一篇博客文章中指出:“图像被送入视觉编码器,然后经过学习的 Perceiver 池化和 [多层感知器] 模态投影。然后,将该池化序列与文本嵌入串联起来,以获取图像和文本的(交错的)序列。”

Hugging Face 使用了一系列公开可用的数据集,特别是 Mistral-7B-v0.1和 siglip-so400m-patch14-384,来训练 Idefics2。此外,还利用了网络文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。

Idefics2的发布是 AI 繁荣持续推出的许多多模态模型之一,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。

图片

这些创新使得ldefcs2在性能上远超ldefics1(80亿参数),在多个基准测试中取得了领先地位,部分指标甚至超过了商业闭源模型GeminiPro和Claude 3 Haiku。

图片

03 应用前景广阔

总体来说,ldefics2的开源发布为多模态人工智能的发展注入了新的活力。这款性能卓越、技术先进的通用多模态模型,不仅在视觉问答、内容生成等经典任务中表现优异,还能胜任图表分析、文档处理等更复杂的应用场景。

尤其值得注意的是,ldefics2通过集成Hugging Face Transformers,可以轻松进行微调,适用于各种多模态下游任务,为开发者提供了强大的基础设施。在开源社区的共同努力下,ldefics2必将为多模态人工智能的未来发展贡献更多力量。

04 Idefics2 资源

idefics2合集 https://huggingface.co/collections/HuggingFaceM4/idefics2-661d1971b7c50831dd3ce0fe

idefics2-8b-AWQ传神社区快速下载:https://opencsg.com/models/MagicAI/idefics2-8b-AWQ

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

  • 13
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值