引领视觉基础模型新纪元！ | 微软宣布开源Florence-2

最新推荐文章于 2024-10-17 20:06:28 发布

OpenCSG

最新推荐文章于 2024-10-17 20:06:28 发布

阅读量960

点赞数 21

文章标签：人工智能自然语言处理大模型世界人工智能大会开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OpenCSG/article/details/140149130

版权

01 模型介绍

🎉重大突破！微软宣布开源Florence-2视觉基础模型，引领AI新纪元！🚀

Florence-2这一创新力作，以统一的提示为基础，跨越式地解决了计算机视觉与视觉语言领域的多样任务难题。从字幕生成到对象检测，从基础识别到精细分割，只需简单文本指令，Florence-2即可轻松驾驭，展现了前所未有的灵活性与强大能力！

面对垂直领域的特定需求，Florence-2虽非万能，但通过微调，其性能可显著优化，精准匹配行业需求。这标志着AGI系统正逐步迈向现实，利用预训练表征的多功能性，在不同应用中展现出惊人的任务无关适应性。

Florence-2的问世，是微软对NLP成功经验的智慧延伸，解决了视觉领域长久以来的挑战：如何整合复杂的空间层次与语义粒度。通过多任务学习与广泛视觉注释，Florence-2构建了统一的预训练框架，为视觉任务带来了革命性的解决方案。

快来探索Florence-2的无限可能，共同见证AI技术的新飞跃吧！

02 模型架构

任务制定新视角：Florence-2以序列到序列的框架，重塑视觉任务处理模式。每个任务化作翻译挑战，图像与任务提示携手，激发模型生成精准响应。无论是文本还是区域信息，标记灵活融入，适配多样格式，让任务处理更灵活！

视觉编码器的力量：DaViT，数据高效视觉转换器的加入，让视觉编码器如虎添翼。它捕捉图像的空间与语义精髓，转化为扁平化视觉标记嵌入，与文本无缝对接，为跨模态融合奠定坚实基础。

多模态融合的魔法：Florence-2的心脏——多模态编码器-解码器变换器，是视觉与语言交融的催化剂。它游走于视觉与语言标记之间，编织出对输入图像与任务提示的深刻理解，生成富有洞察力的响应。

优化目标的智慧：语言建模目标引领训练之路，交叉熵损失护航每个任务。Florence-2在视觉相关任务的海洋中航行，精准生成反应，不断逼近完美。

03 模型评测

以下是几款通用视觉基础模型在零样本（Zero-shot）设置下的图像描述与物体检测任务评测结果，这些模型在训练阶段均未接触过评测任务的数据集。

🔍 评测亮点：

Flamingo（800亿参数）：在COCO Captioning任务上表现出色，CIDEr得分达84.3，但其他数据集信息未提供。
Florence-2-base（仅0.23亿参数）：以惊人实力逆袭，COCO Captioning CIDEr高达133.0，NoCaps和TextCaps数据集上也分别取得118.7和70.1的高分，同时COCO Detection mAP达34.7，小模型大能量！
Florence-2-large（0.77亿参数）：性能再升级，COCO Captioning CIDEr提升至135.6，NoCaps和TextCaps分别飙升至120.8和72.8，COCO Detection mAP也达到37.5，证明了其在大规模参数下的卓越表现。

🚀 Florence-2 亮点总结：

高效性：即便是基础版，Florence-2也展现出远超同类大模型的零样本性能，参数效率极高。
全面性：在多个评测任务上均表现出色，验证了其强大的泛化能力和通用视觉理解能力。
潜力无限：随着模型规模的增加，Florence-2的性能持续攀升，预示着其在更大规模数据集和更复杂任务上的无限可能。

04 模型与论文地址

传神社区：https://www.opencsg.com/models/microsoft/Florence-2-large

https://www.opencsg.com/models/microsoft/Florence-2-base

hugging face 模型：https://huggingface.co/microsoft/Florence-2-large

https://huggingface.co/microsoft/Florence-2-base

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

关注

21
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。