问题
使用 huggingface 的 transformers 库中的 owlvit 模型进行 one shot 目标检测时,引导图与待检测图差距巨大,但最终置信度score依旧太高
实验
实验1
待检测图像1
引导图1
检测结果1
实验2
待检测图像2
引导图1
检测结果1
原因
transformers中的后处理函数中对置信度scores进行了再映射,即将预测的最大值又映射为1.00,后处理函数为OwlViTProcessor.post_process_image_guided_detection(),具体调用的是image_processing_owlvit.py文件中的post_process_image_guided_detection函数,如下图所示