论文阅读《RepMet: Representative-based metric learning for classification and few-shot object detection》

RepMet

提出了一种可以同时学习特征提取网络、嵌入空间和描述每个类别分布混合模型(表征)的端到端网络。通过替换特征提取网络的 classification head,可以用在小样本目标检测领域。

小样本检测在特定任务和一般范畴分类的任务下取得了很大的进步,但是在目标检测领域,由于背景的存在和需要准确定位物体的位置,还有很大的进步空间。

表征的计算方法是用K近邻算法来建模,以往的方法如原型网络的基本假设是类别分布在嵌入空间中是单峰的(类似正态分布,只有一个峰),也就是说存在一个原型点。但是在实际中,类别的表征不一定是单峰的,可能是多个模式的混合表示(这里也可以理解为其概率密度函数一众最高点)。

文章认为小样本分类任务的方法无法用在小样本检测任务的原因是:一个检测器训练批次通常只包含一张图像,前景与背景 ROI 比率严重不平衡。这对小样本的学习器非常不友好,因为其通常需要在每个训练批次中包含多个类别的平衡的 ROI 比率,并且通常难以应付非结构化噪声(这里指背景)。

RepMet(DML sub-net)用在小样本检测任务的方法是替换目标检测网络的分类算法,而特征提取和定位物体的算法还保持不变。文中以 deformable-FPN(Faster RCNN 的变种,使用空洞卷积)为例,超参数 K=5,σ=0.5, 在 few-shot 任务上利用提出的分类算法(DML)来得出 ROI 的后验类别,具体做法是输入 ROI 的特征向量,利用迁移学习的思想,将与特征向量表征最相近(在L2距离下)的表征替换为该特征向量的表征,通过将某种类别的知识迁移到测试集的新类别来完成 few-shot learn。如下图,在训练阶段同时学习特征提取网络、嵌入空间内的表征(包括各个类别和背景)。在测试阶段输入的是训练集里没有的类别,往往要通过一张或者几张图片来得到其在嵌入空间的表征,这里迁移了已有类别的表征来提高性能。

 RepMet 网络结构

黄色框提取出来的是分类类别的表征信息,其在嵌入空间中的分布可以看作一种混合模型(可以理解为K近邻算法其概率密度函数一众最高点),这里通过更新 FC layer 的参数来训练混合表示。输入为网络提取到的特征,之后(蓝色方框)用来将其转换到嵌入空间里的特征向量。将该特征向量与各类的每个表征计算距离矩阵:

距离矩阵用来计算图像属于某个类别的概率:

其属于某个具体类别的概率为:

计算两类损失函数:分类损失和嵌入特征空间的损失,分类损失即输入图片的特征与各类别各表征的交叉熵损失,嵌入损失如下:

i* 表示正确的类别,上式要求嵌入特征向量 E 与正确类别的表征之间的最近距离,要比与其他错误类别的表征之间的最近距离小 α,否则会受到惩罚,| · |+ 为 RELU 激活函数。

Benchmark

本文采用正则化迁移的方法提出了一个小样本检测的 Benchmark。之前的 Benchmark 每个任务只包含一个 episode(训练/测试图片的选择),而新提出的 Benchmark 基于 ImageNet-LOC 数据集,其每个任务包含500个随机的 episode。每一个 episode 都是一个 n-shot,m-way 小样本检测的任务(这里 n 可取1、5、10),该任务中类别的每一类都有 10*m 张 query images,每张 query image 至少包含一个或多个该类的实例。下图为 1-shot,5-way episode 示例:

该 Benchmark 包含三个 baseline :

  1. fine-tuning deformable-FPN 的分类分支。
  2. 将 deformable-FPN 的检测头换为本文提出的 DML sub-net,不过不使用 embedding module 模块,将 deformable-FPN 特征提取网络最后两个全连接层的输出作为 embedding module。
  3. 将 DML sub-net 连接到特征提取网络之后,不过 embedding module 不与该网络一起训练,而是利用将前景和背景的 ROI 输入到 triplet loss 用原型网络 Prototypical NetWork 来训练。

baseline 和本文提出的方法在相同的数据集上预训练(并不是 ImageNet-LOC),测试在相同的 episodes。训练数据大都是 ImageNet-LOC 数据集中的动物和鸟类,类别数为100。测试数据的类别是 ImageNet-LOC 数据集中214类的动物和鸟类(保证训练和测试数据在同样的特征域),与训练数据的类别没有交叉。对采用 DML sub-net 的方法,在每一 episode 将提取出的特征向量的表征替换掉嵌入网络中与之最相近的表征(迁移的思想)来完成训练和预测。训练阶段将和 bounding box 的 IoU 大于等于0.7的 ROI 留下,特征提取网络和 embedding module 同时优化。实验结果如下:

可以理解为训练过程就是 fine-tuning 的过程,对用采用 DML sub-net 的方法微调了嵌入模块和表征模块。图中3和4对比可以得出同时训练的重要性。

对于第三种方法精度的衰退,文章中的解释不是很懂:

Although the ex-ternal embedding was trained on the same training images as our method and the other baselines, it was infeasible to sample the entire collection of possible background ROIs that are being processed by our method when training as a detector end-to-end. Therefore, we had to resort to sampling 200 ROIs per image, which reduced the baseline’s ability to reject the background.

同时为了检验共同学习到的嵌入和特定表征的相互依赖性,对每个 episode 训练得到的表征进行了重复测试(只使用没有用于训练的验证图像),反映在图中的最后两行。第一行使用训练数据调整过的表征,而第二行使用预训练后得到的与之类别相近的表征,只展示出了 5-shot 的结果。可以看出同时训练得到对应的嵌入和表征是很重要的,后面的训练过程实际上就是微调预训练表征的过程。同时可以看到精度的上升,其对没有见过的类别的鲁棒性上升。

同时对比了 deformable-FPN 和本文的方法在通用检测任务上的性能:

补充

  • query image

给定 support images,在 query image 找到所有与 support images 中种类相同的物体,如下图,左上角和右上角的叫做 support image,中间大图叫做 query image。 

  • Beachmark

baseline 主要关注自己提出的方法,比如最原始最简单的方法出来的结果(参照物)。然后再这个基础上改进,增加各种组件,可以看出提升了多少,通过 baseline 我们可以知道这个方法能不能 work,有多少提升。benchmark 主要对比别人的方法,这个方法不一定是最好的,但一定是最有代表性且被广泛认可的(一种标准和规则)。其所用的数据就是 benchmark data,其方法就是 benchmark method,提出的方法的在 benchmark data 上得出的结果与 benchmark method 的结果对比才能知道你的方法是否足够好。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Triangulation Learning Network (TLN) 是一个用于从单目图像到立体图像的三维物体检测的算法,其存在一些主要问题,包括: 1. 训练数据缺乏:TLN 算法需要大量的训练数据才能准确地预测三维物体的位置和姿态。但是,由于三维物体检测数据集的获取成本很高,因此当前可用的数据集相对较少,这可能会影响算法的性能。 2. 姿态估计不准确:TLN 算法依赖于对相机姿态的准确估计,但是在实际应用中,姿态估计可能会出现误差。这些误差可能会导致算法无法准确地确定物体的三维位置和姿态。 3. 光照和背景干扰:TLN 算法对光照和背景的变化敏感,这可能会对其检测性能产生负面影响。在不同光照条件和背景下进行测试时,算法可能会出现误报或漏报。 4. 计算复杂度高:TLN 算法需要进行复杂的三角测量和卷积计算,因此需要较高的计算资源。这可能会限制算法在实时应用中的使用。 总之,尽管TLN 算法在三维物体检测方面取得了一些进展,但是它仍然面临着一些挑战和限制,需要进一步研究和改进。 ### 回答2: Triangulation Learning Network (TLN) is a type of deep learning model used for monocular to stereo 3D object detection. However, there are several main problems that currently exist with this approach. 首先,monocular-based 3D object detection methods, including TLN, heavily rely on depth estimation from a single image. This poses a challenge because estimating accurate depth information from a monocular image is inherently difficult. Monocular depth estimation is an ill-posed problem, as there are multiple possible depth solutions for a single input image. Therefore, the quality of depth estimation directly affects the accuracy of 3D object detection, and the current performance of monocular-based methods is still limited due to inaccurate depth estimation. 其次,TLN relies on stereo vision to improve the accuracy of 3D object detection. However, stereo vision has its limitations as well. It requires the presence of two or more cameras with known spatial calibration, which can be expensive and cumbersome to implement in real-world scenarios. Moreover, in challenging environments with poor lighting conditions or occlusions, the accuracy of stereo vision-based methods can be significantly affected. 此外,TLN suffers from the problem of ambiguous depth inference. Even with accurate depth estimation, it is still challenging to determine the exact 3D position of an object. This is because an object can have multiple possible 3D positions that are consistent with the observed 2D image. It becomes even more complex when multiple objects overlap or occlude each other, leading to further ambiguities in 3D object detection results. 最后,TLN requires a large amount of training data to achieve satisfactory performance. Collecting and annotating such data, especially for stereo 3D object detection, can be time-consuming, costly, and error-prone. This limits the scalability and practicality of TLN, as acquiring a diverse and representative dataset for training can be challenging. In summary, the main problems currently existing with Triangulation Learning Network (TLN) for monocular to stereo 3D object detection are inaccurate depth estimation, limitations of stereo vision, ambiguous depth inference, and the requirement for a large amount of training data. Addressing these challenges is essential for improving the accuracy, robustness, and practicality of TLN-based 3D object detection methods. ### 回答3: 目前Triangulation Learning Network: from Monocular to Stereo 3D Object Detection存在以下主要问题: 1. 数据需求高:从单目到立体的3D物体检测需要更多的数据支持。单目图像中的物体深度信息是模糊的,缺乏对立体视觉中物体准确深度的直接观测。因此,为了训练Triangulation Learning Network,需要大量的立体图像数据集,这样的数据集很难获得且成本较高。 2. 精度限制:尽管Triangulation Learning Network提供了改善单目到立体3D物体检测的方法,但其精度仍然受到一些限制。由于立体视觉中的散射和遮挡问题,物体表面的纹理信息可能会受到影响并导致深度估计的误差。此外,图像中物体的姿态和形状也会对准确的深度估计产生影响。 3. 依赖立体匹配:Triangulation Learning Network的核心思想是通过使用立体图像中的匹配点将单目图像的深度信息转换为立体深度。然而,立体匹配本身是一个复杂和计算密集的任务,尤其在具有高度纹理变化或遮挡的场景中,可能存在匹配错误的情况。 4. 硬件要求高:Triangulation Learning Network需要用于获取立体图像的专门的硬件设备,如立体相机或深度相机。这些硬件设备的成本较高,因此部署这种方法可能会面临一定的技术和经济挑战。 综上所述,尽管Triangulation Learning Network提供了一种从单目到立体的3D物体检测方法,但仍然存在着数据需求高、精度限制、依赖立体匹配和硬件要求高等问题。随着技术的进步,相信这些问题将逐渐得到解决,从而更好地推动Triangulation Learning Network的发展和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值