Few-Shot Object Detection with Sparse Context Transformers-CVPR论文汇报

joseanne_josie

已于 2024-07-12 10:04:10 修改

阅读量855

点赞数 7

文章标签：深度学习人工智能笔记

于 2024-07-12 10:03:21 首次发布

本文链接：https://blog.csdn.net/qq_73697176/article/details/140370127

版权

Few-Shot Object Detection with Sparse Context Transformers-CVPR论文汇报

背景（Background）

迁移学习（transfer learning）是目前解决少样本问题的一个有效方法

迁移学习就是在源域（source domain）上训练好一个检测模型后，送到目标域（target domain）上微调。

目标域(target domain)因标注少因此无法有效识别新类
目标检测=定位+分类；FSOD中的定位需要的是空间信息可以通过预训练解决，但是分类需要语义信息，要在模型上重新训练；降低因分类准确性低引起的类别混淆问题。

挑战（Challenge）

为什么原本的文本-transformer不行？：由于只关注源域和目标域先验框的关系会 a.引入与任务无关的文本域，b.会影响模型识别新类别的能力

方法（Method）

作者考虑使用不同来源的信息，在文本域和每个先验框之间建立稀疏关系帮助模型找到最有效的域。
使用稀疏文本transformer（sparse context transformer）:由稀疏关系探索模块和文本聚合模块组成。

As shown subsequently, our proposed transformer includes two submodules: one for sparse relationship discovery, and another one for aggregation. These submodules are respectively used to model context/classifier relationships and for context fusion.

稀疏关系探索模块（sparse relationship discovery）:一张图片送入SSD检测头，得到所有先验框的得分矩阵（得分矩阵中的数据值就是物体类别的语义表达），再进行reshape；由于SSD产生先验框数量太大会导致过拟合，使用空间池化得到矩阵Q。SSD编码器得到的不同尺寸的feature map可以concat成矩阵M。Q和M组成了contextual fields。
Attention Focus：根据P和C（C=namda*M‘+Q），的计算得到先验框和contextual fields的关系矩阵R，R中的每一行代表contextual fields关于潜在先验框的重要性，可以以此来进行筛选。
聚合模块（Aggragation）：用W衡量第i个先验框和contextual fields之间的重要性。再使用P’=P+fc(W)来表达文本感知表示，最后得到先验框和物体类别的得分函数。

这一部分涉及到很多公式和数学符号，建议看原文或者是参考这篇翻译博客

实验（Experiment）

实施细节：

数据集：PASCAL VOC&MS COCO；把数据集进行划分，PASCAL VOC划分成3个部分。
以SSD检测器为基础结构，构建6个不同空间比例因子的检测头（1，3，5，10，19，38）。文本域中的先验框要通过卷积和最大池化，特征图则由4种空间大小组成。
预训练原始SSD，再在目标域上对SSD微调。

与SOTA模型的对比实验以mAP为评估指标，发现了在几乎所有splits上的所有shot有最高准确度，尤其是在shot=1时。
消融实验以mAP和IoU阈值0.5（AP50）为指标得出了文本域和稀疏关系这两个创新点的有效性，不仅提高源域的准确性还提高在目标域上的准确性。
同时还做了Attention Focus模块和GAP（global average pooling）的消融实验，得出Attention Focus能提高在目标域上的准确度。
质的表现（Qualitative Performance）:使用了激活图和检测结果进行可视化。

（个人觉得没有用实验结果充分展示对于避免混淆物体的提升，不过在新类的识别精度上确实有提升）

joseanne_josie

关注

7
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
Few-Shot Object Detection with Sparse Context Transformers-CVPR论文汇报

迁移学习就是在源域（source domain）上训练好一个检测模型后，送到目标域（target domain）上微调。
复制链接

扫一扫