论文阅读笔记《LSTD: A Low-Shot Transfer Detector for Object Detection》

最新推荐文章于 2025-01-23 20:37:22 发布

深视

最新推荐文章于 2025-01-23 20:37:22 发布

阅读量2k

点赞数 3

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习小样本学习目标检测

本文链接：https://blog.csdn.net/qq_36104364/article/details/106806507

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章

订阅专栏

小样本学习

100 篇文章

订阅专栏

本文介绍一种基于迁移学习的小样本目标检测算法LSTD，结合SSD和FasterRCNN优势，通过背景抑制和迁移知识正则化，提升检测效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种基于迁移学习的小样本目标检测算法（LSTD）。常见的迁移学习方法就是在一个大规模的数据集，也称作源数据集（source domain）上进行预训练，然后再在小样本数据集，也称作目标数据集（traget domain）上进行优化训练，以实现小样本目标检测任务。作者指出如果采用现有的目标检测网络直接在小样本数据集上做迁移学习存在许多问题，因为少量的训练样本很难消除分类和检测之间的任务差异，而且容易产生过拟合的问题。因此作者结合了SSD和FasterRCNN两种算法的优势，提出一种适用于小样本学习的迁移检测器，并提出一种利用背景抑制（Background Depression，BD）和迁移知识（Transfer Knowledge，TK）的正则化方法。整个网络的处理过程如下图所示
在这里插入图片描述
首先看图中红色底的部分，这是本文的主体结构。作者将目标检测任务分成定位和识别两个阶段，在定位阶段采用SSD算法中的边界框回归策略（bounding box regression），具体而言，就是图像经过一个深层的卷积神经网络进行特征提取，对于其中某些特定的卷积层，在特征图的每个位置上都会有一定数量的缺省候选框（这些候选框的尺寸和比例各不相同），如果候选框内包含有目标物体，那么则会利用平滑的L1损失函数对候选框与真实的边界框（ground truth）之间的偏移进行惩罚，这个偏移包括候选框中心位置的偏移和候选框宽和高的偏差。在对候选框内的物体进行分类时，也不是直接对所有候选框内的物体都进行多分类，而是经过一个由粗到精的过程，先进行一个二分类，判断候选框内是否有目标物体，然后再利用Faster RCNN里设计的感兴趣区域池化层（ROI Pooling），对特征提取过程中的中间阶段的特征图上候选框内的区域进行池化，得到对应的特征向量，然后进行分类。本文采用卷积层取代了原有的全连接层，这样进一步减少了过拟合的风险。作者认为这个由粗到精的分类过程能够更好的利用源数据集（source domain）的信息，因为虽然二分类器是在源数据集上训练得到的，与目标数据集中的物体类别并不相同，但是相对于背景而言，物体和物体之间肯定还是更相似一些（比如源数据集中包含猫，而目标数据集包含狗，二者虽然不相同，但是两者之间的相似性，肯定大于猫和天空之间的相似性），因此二分类器不能准确的预测物体类别，但能初步判断候选框内是否包含物体。
在上述易于小样本迁移学习的目标检测主体网络的基础上，为了进一步提高检测的效果，作者又提出了一种正则化方法，该正则化方法包含两个正则化项：背景抑制 $\mathcal{L}_{BD}$ 和迁移知识 $\mathcal{L}_{TK}$ ，如下式所示
在这里插入图片描述
背景抑制。如图中紫色底部分所示，为了减少杂乱的背景对于目标检测的干扰，作者取出特征提取中间阶段的部分特征图，并且用真实目标框对其做掩码操作，不在目标框内的部分就当作背景 $F_{BD}$ ，然后利用L2正则化项对其进行抑制。这样做的目的是为了减少背景区域的响应，而增加目标区域处的响应，网络会倾向于在背景区域处输出0值，否则就会受到惩罚。
在这里插入图片描述
迁移知识。在迁移学习过程中，特征提取，边界框回归，二分类等过程都可以利用在源数据集上预训练得到的结果作为初始化，但因为源数据集和目标数据集所包含的物体类别和数量都不相同，所以最后的多分类阶段无法利用源数据预训练的结果，只能从随机状态开始初始化。如何让多分类阶段也能利用源数据集中的信息呢？作者发现虽然源数据集和目标数据集包含物体类别不同，但是二者之间还是存在一些相似性的（如上文提到的猫和狗的例子，或文中提到的棕熊和公牛的例子）。于是作者用源数据集上训练得到的多分类器（为方便表述，我们称其为 $C_s$ ）对目标数据集中的图像进行分类，虽然分类的结果肯定的不对的（因为源数据集中压根不包含这类物体），但是可以预测出一个最为相似的结果（由一个向量表示 $p^{\tau}_s$ ）。然后，修改了目标分类器 $C_t$ 的结构，在原来的基础上增加一个源数据集的分类器 $C_s'$ ，使得在目标数据集上进行训练时，可以同时获得目标分类器和源分类器的两个结果。注意此处的源分类器 $C_s'$ 的参数是随机初始化的，不是在源数据集上预训练得到的，与上文提到的 $C_s$ 只是结构相同，而参数不同。最后计算两个源分类器预测结果 $p^{\tau}_s$ 和 $p^{\tau}_{pre}$ 之间的交叉熵损失，作为迁移知识正则化项。这样做的好处就是虽然两个分类器预测结果都不是正确的，但是我们希望让 $C_s'$ 预测的结果与 $C_s$ 的结果尽可能的相似，这就相当于用源数据集预训练的结果来引导目标分类器的训练。
在这里插入图片描述

实现过程

网络结构

定位阶段采用SSD网络的结构，分类阶段采用了Faster RCNN网络的结构。

损失函数

包含三项：边界框回归损失项采用平滑的L1损失，由粗到精的分类损失项（一般采用交叉熵损失函数）和正则化项（如上文所述）

训练策略

首先在大规模数据集上进行预训练，然后在小样本数据集上作优化训练。

创新点

结合SSD和Faster RCNN两者的优点，提出一种适用于迁移学习的小样本目标检测算法LSTD
提出背景抑制和迁移知识两个正则化方法，进一步提高了目标检测的效果

算法评价

本文是较早的开展小样本目标检测问题研究的文章，充分地利用了目标检测领域两大算法SSD和Faster RCNN的优势（多级边界框回归策略和由粗到精地分类策略），降低了在小样本数据集上进行迁移训练的难度。在此基础提出的背景抑制正则化项，有效地降低了背景区域的响应，使定位网络将更多的注意力集中在目标所在区域；而迁移知识正则化项，则是充分利用源数据集中获取的知识，用于辅助目标分类器的训练。作者提出的几个设计都非常具有创新性，为小样本目标检测算法的研究奠定了良好的基础。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述