识别一切:强大的图像标注模型
Zhang, Y., Huang, X., Ma, J., Li, Z., Luo, Z., Xie, Y., Qin, Y., Luo, T., Li, Y., Liu, S., Guo, Y., & Zhang, L. (2023). Recognize Anything: A Strong Image Tagging Model. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2306.03514
我们推出了“Recognize Anything Model (RAM):一种强大的图像标注模型”。RAM为计算机视觉中的大型模型迈出了实质性的一步,展示了零样本学习的能力,以高准确度识别任何常见类别。RAM引入了一种新的图像标注范式,利用大规模的图像文本对进行训练,而不是手动注释。RAM的开发包括四个关键步骤。首先,通过自动文本语义解析大规模获取无标注图像标签。随后,通过统一字幕和标注任务,由原始文本和解析标签分别进行监督,训练初步模型以实现自动注释。第三,采用数据引擎生成额外的注释并清理不正确的注释。最后,使用处理后的数据对模型进行重新训练,并使用较小但更高质量的数据集进行微调。我们在许多基准测试中评估了RAM的标注能力,并观察到令人印象深刻的零样本性能,明显优于CLIP和BLIP。值得注意的是,RAM甚至超越了完全监督的方式,并展现出与Google标注API相竞争的性能。我们在https://recognize-anything.github.io 发布了RAM,以促进计算机视觉中大型模型的进展。