Recognize Anything: A Strong Image Tagging Model

最新推荐文章于 2025-04-11 01:00:00 发布

王知为

最新推荐文章于 2025-04-11 01:00:00 发布

阅读量926

点赞数 11

文章标签：目标检测

本文链接：https://blog.csdn.net/oneway3124/article/details/136458765

版权

Zhang等人提出的新模型RAM通过自动文本解析和大规模无标注数据训练，展示了在图像标注上的出色性能，超越CLIP和BLIP，甚至接近Google标注API。模型开源以促进计算机视觉领域的研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

识别一切：强大的图像标注模型

Zhang, Y., Huang, X., Ma, J., Li, Z., Luo, Z., Xie, Y., Qin, Y., Luo, T., Li, Y., Liu, S., Guo, Y., & Zhang, L. (2023). Recognize Anything: A Strong Image Tagging Model. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2306.03514

我们推出了“Recognize Anything Model (RAM)：一种强大的图像标注模型”。RAM为计算机视觉中的大型模型迈出了实质性的一步，展示了零样本学习的能力，以高准确度识别任何常见类别。RAM引入了一种新的图像标注范式，利用大规模的图像文本对进行训练，而不是手动注释。RAM的开发包括四个关键步骤。首先，通过自动文本语义解析大规模获取无标注图像标签。随后，通过统一字幕和标注任务，由原始文本和解析标签分别进行监督，训练初步模型以实现自动注释。第三，采用数据引擎生成额外的注释并清理不正确的注释。最后，使用处理后的数据对模型进行重新训练，并使用较小但更高质量的数据集进行微调。我们在许多基准测试中评估了RAM的标注能力，并观察到令人印象深刻的零样本性能，明显优于CLIP和BLIP。值得注意的是，RAM甚至超越了完全监督的方式，并展现出与Google标注API相竞争的性能。我们在https://recognize-anything.github.io 发布了RAM，以促进计算机视觉中大型模型的进展。