论文地址:https://arxiv.org/pdf/2311.06242
Huggingface开源地址:Florence - a microsoft Collection
论文首次公开于23年11月10日,发表在CVPR2024,模型开源于24年6月14日 (数据未开源)
开发了一个全面、大规模、高质量的多任务数据集 FLD-5B,包括 1.26 亿张图像、5 亿个文本注释、13 亿个文本-区域注释和 36 亿个文本短语-区域注释
两个版本模型:230M (90+140) 和 770M (360+410),在大多数基准中,甚至打败了多数大 100 倍的 LVM的模型,就像Phi-3一样,表明了数据质量非常重要
只需要一个指令,就可以完成诸如检测、分割、OCR、描述等各种各样的视觉和视觉语言任务</