01 模型介绍
🎉重大突破!微软宣布开源Florence-2视觉基础模型,引领AI新纪元!🚀
Florence-2这一创新力作,以统一的提示为基础,跨越式地解决了计算机视觉与视觉语言领域的多样任务难题。从字幕生成到对象检测,从基础识别到精细分割,只需简单文本指令,Florence-2即可轻松驾驭,展现了前所未有的灵活性与强大能力!
面对垂直领域的特定需求,Florence-2虽非万能,但通过微调,其性能可显著优化,精准匹配行业需求。这标志着AGI系统正逐步迈向现实,利用预训练表征的多功能性,在不同应用中展现出惊人的任务无关适应性。
Florence-2的问世,是微软对NLP成功经验的智慧延伸,解决了视觉领域长久以来的挑战:如何整合复杂的空间层次与语义粒度。通过多任务学习与广泛视觉注释,Florence-2构建了统一的预训练框架,为视觉任务带来了革命性的解决方案。
快来探索Florence-2的无限可能,共同见证AI技术的新飞跃吧!
02 模型架构
任务制定新视角:Florence-2以序列到序列的框架,重塑视觉任务处理模式。每个任务化作翻译挑战,图像与任务提示携手,激发模型生成精准响应。无论是文本还是区域信息,标记灵活融入,适配多样格式,让任务处理更灵活!
视觉编码器的力量:DaViT,数据高效视觉转换器的加入,让视觉编码器如虎添翼。它捕捉图像的空间与语义精髓,转化为扁平化视觉标记嵌入,与文本无缝对接,为跨模态融合奠定坚实基础。
多模态融合的魔法:Florence-2的心脏——多模态编码器-解码器变换器,是视觉与语言交融的催化剂。它游走于视觉与语言标记之间,编织出对输入图像与任务提示的深刻理解,生成富有洞察力的响应。
优化目标的智慧:语言建模目标引领训练之路,交叉熵损失护航每个任务。Florence-2在视觉相关任务的海洋中航行,精准生成反应,不断逼近完美。
03 模型评测
以下是几款通用视觉基础模型在零样本(Zero-shot)设置下的图像描述与物体检测任务评测结果,这些模型在训练阶段均未接触过评测任务的数据集。
🔍 评测亮点:
-
Flamingo(800亿参数):在COCO Captioning任务上表现出色,CIDEr得分达84.3,但其他数据集信息未提供。
-
Florence-2-base(仅0.23亿参数):以惊人实力逆袭,COCO Captioning CIDEr高达133.0,NoCaps和TextCaps数据集上也分别取得118.7和70.1的高分,同时COCO Detection mAP达34.7,小模型大能量!
-
Florence-2-large(0.77亿参数):性能再升级,COCO Captioning CIDEr提升至135.6,NoCaps和TextCaps分别飙升至120.8和72.8,COCO Detection mAP也达到37.5,证明了其在大规模参数下的卓越表现。
🚀 Florence-2 亮点总结:
-
高效性:即便是基础版,Florence-2也展现出远超同类大模型的零样本性能,参数效率极高。
-
全面性:在多个评测任务上均表现出色,验证了其强大的泛化能力和通用视觉理解能力。
-
潜力无限:随着模型规模的增加,Florence-2的性能持续攀升,预示着其在更大规模数据集和更复杂任务上的无限可能。
04 模型与论文地址
传神社区:https://www.opencsg.com/models/microsoft/Florence-2-large
https://www.opencsg.com/models/microsoft/Florence-2-base
hugging face 模型:https://huggingface.co/microsoft/Florence-2-large
https://huggingface.co/microsoft/Florence-2-base
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https:// github.com/opencsg
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区