论文分享简介
本推文主要介绍了CVPR 2024上的一篇论文《YOLO-World: Real-Time Open-Vocabulary Object Detection》,论文的第一作者为Tianheng Cheng和Lin Song,该论文提出了一种开放词汇目标检测的新方法,名为YOLO-World。论文通过引入视觉-语言建模和大规模预训练解决了传统YOLO检测器在固定词汇检测中的局限性。论文提出的YOLO-World模型,通过Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)及区域-文本对比损失,增强了视觉与语言信息的交互,从而在零样本检测中表现出色。该方法在LVIS数据集上实现了35.4 AP,并保持了高效的推理速度,且在多个下游任务中表现优异。推文作者为李杨,审校为朱旺和陆新颖。
论文下载地址:
https://arxiv.org/pdf/2401.17270
开源代码地址:
https://github.com/AILab-CVC/YOLO-World