Glip模型

WindyChanChan

已于 2024-04-17 21:34:54 修改

阅读量599

点赞数 10

分类专栏：多模态文章标签：语言模型人工智能

于 2024-03-09 21:16:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013308709/article/details/136590513

版权

多模态专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了使用Transformer进行目标检测的最新方法Glip，它通过Zero-shot技术处理未知类别，利用Clip模型融合图像和文本特征，同时讨论了Detr和Yolos的局限性以及Glip的创新点，包括其独特的损失函数和训练数据策略。

摘要由CSDN通过智能技术生成

Yolos

完全使用Transformer做目标检测

Detr

先使用CNN提取特征然后再使用transformer
Detr和Yolos共同的缺点：需要事先知道所有的类别

Glip

Zero-shot, 目标检测的类别可以不在训练类别中

在这里插入图片描述

目标框进行视觉编码，然后和文本进行匹配
文本和视觉特征是通过Clip模型提取的，所以视觉向量和文本向量是在一个空间

Glip模型的优点

在这里插入图片描述

Glip图像和文本融合

在这里插入图片描述

Glip损失函数

在这里插入图片描述

Glip训练数据

在这里插入图片描述

关注

10
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。