Glip模型

本文介绍了使用Transformer进行目标检测的最新方法Glip,它通过Zero-shot技术处理未知类别,利用Clip模型融合图像和文本特征,同时讨论了Detr和Yolos的局限性以及Glip的创新点,包括其独特的损失函数和训练数据策略。
摘要由CSDN通过智能技术生成

Yolos

  • 完全使用Transformer做目标检测
    在这里插入图片描述

Detr

  • 先使用CNN提取特征然后再使用transformer
  • Detr和Yolos共同的缺点:需要事先知道所有的类别
    在这里插入图片描述

Glip

  • Zero-shot, 目标检测的类别可以不在训练类别中

在这里插入图片描述

  • 目标框进行视觉编码,然后和文本进行匹配
  • 文本和视觉特征是通过Clip模型提取的,所以视觉向量和文本向量是在一个空间在这里插入图片描述

Glip模型的优点

在这里插入图片描述
在这里插入图片描述

Glip图像和文本融合

在这里插入图片描述

Glip损失函数

在这里插入图片描述
在这里插入图片描述

Glip训练数据

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值