Salesforce 发布开源大模型 xGen-MM

GVT0zOPXAAAYPh-.jpg

xGen-MM 论文

在当今 AI 技术飞速发展的时代,一个新的多模态 AI 模型悄然崛起,引起了业界的广泛关注。这个由 Salesforce 推出的开源模型—— xGen-MM,正以其惊人的全能特性和独特优势,在 AI 领域掀起一阵旋风。那么,xGen-MM 究竟强在哪里?让我们接着往下看。

xGen-MM

QQ截图20240820140846.jpg

xGen-MM

xGen-MM 的主要功能有:

多模态理解:  xGen-MM 能同时处理和理解图像和文本信息,支持回答关于视觉内容的问题。

大规模数据学习:通过大量多样化的数据训练,xGen-MM 能捕捉到丰富的视觉和语言模式。

高性能生成: xGen-MM 不仅能理解输入信息,还能生成文本,比如根据─张图片编写描述或回答。

开源可访问: xGen-MM 的模型、数据集和代码是开源的,研究人员和开发者可以自由地访问和使用这些资源来构建自己的应用。

微调能力:用户可以根据自己的特定需求对 xGen-MM 进行微调,适应不同的应用场景。

性能参数

QQ截图20240821153042.jpg

官方论文性能参数图

xGen-MM 拥有令人瞠目结舌的40亿参数,这个庞大的数字背后蕴藏着强大的学习和推理能力。在众多基准测试中,xGen-MM 展现出了惊人的表现。特别是在视觉问答和 OCR 任务中,它的成绩更是傲视群雄。在 TextVQA 任务中,xGen-MM 在 8-shot 评估中取得了66.9的高分,而在 COCO 字幕任务中更是斩获了90.6的优异成绩。

xGen-MM 还采用了动态高分辨率图像编码策略,这使得它能够高效处理不同分辨率的图像,同时保持较低的计算需求。这就像一位技艺精湛的摄影师,能够在保持画质的同时巧妙地压缩文件大小。这种策略大大提升了模型的可扩展性和效率,为其在大规模应用中奠定了坚实基础。

xGen-MM 还 underwent 安全性微调,这进一步增强了模型的可靠性。通过减少幻觉等有害行为,xGen-MM 在保持高精度的同时,更加安全可靠。

技术原理

QQ截图20240821154102.jpg

技术原理

xGen-MM 的强大并非偶然,而是源于其独特的技术创新。它采用了Perceiver架构来高效处理图像数据,能够快速准确地捕捉图像中的关键信息。xGen-MM 还巧妙地结合了大型语言模型(如Phi-3),这使得它在处理文本信息时如鱼得水。

xGen-MM 的训练过程也采用了统一的多模态学习目标,通过单一的自回归损失函数来训练模型。这种方法大大简化了训练过程,同时也提高了模型的性能;而且 xGen-MM 还在大规模多样化的数据集上进行训练,这让它拥有了丰富的知识储备和强大的泛化能力;最后,通过后续优化方法(如DPO),xGen-MM不断提升自身的安全性和可靠性。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值