Huggingface 中的 transformers 库中的 owlvit2 模型具体由三种应用
- 检测 target image 可能存在的目标(与owlvit的主要区别)
- 利用 query text 在 target image 上进行目标检测 (text guided detection)
- 利用 query image 在 target image 上进行目标检测 (image guided detection)
下面以owlv2-base-patch16模型为例,上文中的第三种应用为例进行伪码讲解
Owlvit2检测流程如下所示:
预处理
# Target image
target_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
target_image = Image.open(requests.get(target_url