Recognize Anything: A Strong Image Tagging Model

Zhang等人提出的新模型RAM通过自动文本解析和大规模无标注数据训练,展示了在图像标注上的出色性能,超越CLIP和BLIP,甚至接近Google标注API。模型开源以促进计算机视觉领域的研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

识别一切:强大的图像标注模型

Zhang, Y., Huang, X., Ma, J., Li, Z., Luo, Z., Xie, Y., Qin, Y., Luo, T., Li, Y., Liu, S., Guo, Y., & Zhang, L. (2023). Recognize Anything: A Strong Image Tagging Model. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2306.03514

我们推出了“Recognize Anything Model (RAM):一种强大的图像标注模型”。RAM为计算机视觉中的大型模型迈出了实质性的一步,展示了零样本学习的能力,以高准确度识别任何常见类别。RAM引入了一种新的图像标注范式,利用大规模的图像文本对进行训练,而不是手动注释。RAM的开发包括四个关键步骤。首先,通过自动文本语义解析大规模获取无标注图像标签。随后,通过统一字幕和标注任务,由原始文本和解析标签分别进行监督,训练初步模型以实现自动注释。第三,采用数据引擎生成额外的注释并清理不正确的注释。最后,使用处理后的数据对模型进行重新训练,并使用较小但更高质量的数据集进行微调。我们在许多基准测试中评估了RAM的标注能力,并观察到令人印象深刻的零样本性能,明显优于CLIP和BLIP。值得注意的是,RAM甚至超越了完全监督的方式,并展现出与Google标注API相竞争的性能。我们在https://recognize-anything.github.io 发布了RAM,以促进计算机视觉中大型模型的进展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值