DETR目标检测原理

最新推荐文章于 2024-10-06 23:41:31 发布

努力搞代码

最新推荐文章于 2024-10-06 23:41:31 发布

阅读量317

点赞数 12

文章标签：目标检测人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52093995/article/details/141820468

版权

基本思想

先通过CNN得到各个Patch作为输入，再通过Transformer做编码，编码和VIT结构一致，重在解码，直接预测100个坐标框。（100是先验值）

整体网络架构分析

1. 先进行backbone，通过CNN得到patch对应的向量加上位置编码。通过transformer得到多个特征

2. decoder先初始化100维度向量，利用encoder得到的特征来重构100维向量，即object querieds是核心，encoder提供的是k,v，decoder提供的是q。decoder是并行运行的。

3. 再通过全连接层预测对应的值。

位置信息初始化query向量

为什么一定要用transformer提取特征，是因为能够提供各个目标的注意力结果，得到好特征，知道哪个地方是物体哪个是背景。能够让解码器更清楚的知道应该询问哪个向量。能让模型知道物体关注的区域在哪。

输出层就是100个object queries预测

解码器首先随机初始化object queries(通过0+位置编码进行初始化，也就是通过位置信息进行初始化)通过多层让其学习如何利用输入特征。

decoder中

1. 先进行自注意力机制，让自己的query向量初始化后的向量进行注意力机制，让特征学习的更好

2. 再进行注意力机制，引入了encoder的k，v向量，并将初始的q向量和第一步得到的q向量与k,v注意力计算，重构q向量。

注：这里没有transformer中的mask机制，因为要并行计算，传统的transformer因为要预测下一个特征的关系，所以不能提供下一个q类似于透题。

输出的匹配

GT只有两个，但是预测的框为100个，通过匈牙利匹配完成，按照LOSS最小的组合，剩下98个都是背景。

努力搞代码

关注

12
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。