人脸识别论文——发现微小的脸

论文简介

论文中文翻译:《发现微小的脸》

论文名称:《Finding Tiny Faces》

录用日期:2017年4月15日


摘要

  • 尽管在物体识别方面已经取得了巨大的进步,但仍然存在的一个开放式挑战是探测小物体。我们探讨了在寻找小面孔的背景下的问题的三个方面:尺度不变性的作用,图像分辨率和上下文推理。虽然大多数识别方法的目标是尺度不变,但识别3px高的人脸的线索与识别300px高的人脸的线索本质上是不同的。我们采用不同的方法,训练不同尺度的探测器。为了保持效率,探测器采用多任务方式进行训练:它们利用从单一(深度)特征层次的多个层中提取的特征。虽然训练用于大型物体的探测器很简单,但关键的挑战仍然是训练用于小型物体的探测器。我们展示了上下文是至关重要的,并且定义了使用超大接受域的模板(其中99%的模板超出了感兴趣的对象)。最后,我们探讨了规模在预先训练的深度网络中的作用,提供了将有限规模调整为相当极端范围的网络进行外推的方法。我们展示了大量基准人脸数据集(FDDB和WIDER FACE)的最新结果。特别是,与现有技术在WIDER FACE上相比,我们的结果减少了2倍的误差(我们的模型产生的AP为82%,而现有技术的范围为29-64%)。
    在这里插入图片描述
    我们描述了一种探测器,通过使用新的尺度、分辨率和上下文特征来寻找小物体,它可以在报道的1000个当前的面中找到大约800个面。检测器的可信度由右边的颜色条给出:你能自信地识别错误吗?

一、简介

  • 尽管在物体识别方面已经取得了巨大的进步,但仍然存在的一个开放式挑战是探测小物体。我们从三个方面探讨了这个问题,在人脸检测的背景下:尺度不变性、图像分辨率和上下文推理的作用。尺度不变性是目前几乎所有的识别和目标检测系统的基本属性。但从实际角度来看,尺度不变性不适用于有限分辨率的传感器:不可否认,识别300px高脸的线索与识别3px高脸的线索是不同的。
多任务尺度建模(Multi-task modeling of scales)
  • 许多最近的目标检测工作利用尺度归一化分类器(例如,扫描窗口检测器运行在图像金字塔[5]或区域分类器运行在“ROI”池图像特征[7,18])。当将区域调整为规范模板大小时,我们会问一个简单的问题——模板的大小应该是多少?一方面,我们想要一个能检测小人脸的小模板;另一方面,我们想要一个可以利用细节特征(比如面部部分)来提高准确性的大型模板。我们没有采用“一刀切”的方法,而是**训练针对不同尺度(和宽高比)进行调优的独立检测器。**训练大量特定于规模的检测器可能会缺少针对单个规模的训练数据,并且在测试时运行大量检测器会导致效率低下。为了解决这两个问题,我们以多任务方式训练和运行特定于规模的检测器:它们利用在单个(深度)特性层次的多个层上定义的特性。虽然这种策略可以使探测器对大型物体具有较高的精度,但寻找小物体仍然是一项挑战。
如何推广训练前的网络?(How to generalize pre-trained networks?)
  • 对于寻找小物体的问题,我们提供了另外两个关键的见解。首先是分析如何最好地从预先训练的深度网络中提取尺度不变的特征。我们演示了现有的网络针对特定大小的对象进行了调整(在预处理数据集如ImageNet中遇到)。为了将特征从这些网络扩展到新尺寸的对象,我们采用了一个简单的策略:通过插值和抽取在测试时间调整图像的大小。当许多识别系统通过处理图像金字塔以“多分辨率”的方式应用时,我们发现对金字塔的最底层进行插值对于寻找小物体[5]尤为重要。因此,我们最终的方法(图2)是一种精细的尺度特定检测器的混合,以一种尺度不变的方式使用(通过处理图像金字塔来捕获大尺度变化)。
    在这里插入图片描述
    捕捉尺度不变性的不同方法。传统方法构建一个单尺度模板,应用于精细离散的图像金字塔(a)。为了利用不同分辨率下的不同线索,我们可以为不同的对象尺度建立不同的检测器(b)。这种方法可能在训练(或训练前)数据中很少观察到的极端对象尺度上失败。我们利用一个粗糙的图像金字塔捕捉extreme scale ©的挑战。最后,以提高性能的小脸上,我们额外的上下文模型,有效地实现为一个固定大小的接受域所有scale-specific模板(d)。我们定义模板在特征提取的多层深模型,这类似于中央凹描述符(e)。
如何最好地编码上下文?(How best to encode context?)
  • 从根本上来说,寻找小对象是一项挑战,因为对象上几乎没有可以利用的信号。因此,**我们认为图像证据的使用必须超越客体范围。这通常被称为“上下文”。**在下图中,我们提供了一个简单的人体实验,用户试图分类真和假阳性的面孔(如我们的检测器所给出的)。在这里插入图片描述

在左边,我们想象一个大的和小的脸,有或没有背景。人们不需要上下文就能识别大脸,而小脸如果没有上下文就很难识别。我们在右边做了一个简单的人体实验来量化这一观察结果,在这个实验中,用户对我们提出的探测器的真阳性和假阳性面孔进行分类。增加比例背景(将窗口放大3倍)对大面孔提供了一个小的改善,但对小面孔不够。添加一个300像素的固定上下文窗口,大大减少了小人脸20%的错误。这意味着环境应该以不同规模的方式建模。我们使用巨大的接受野(大约300x300,黄色盒子的大小)的中央凹模板来操作这个观察。

很明显,人类需要环境来准确地分类小脸。虽然这种观察是相当直观的,并且在计算机视觉中得到了高度的探索[16,22],但众所周知,很难量化地证明上下文在识别中的好处[4,6,23]。其中一个挑战似乎是如何有效地编码大图像区域。我们证明了从多个层(也称为“超列”特征[8,14])中提取的卷积深度特征是有效的“中央凹”描述符,可以捕获大感受野的高分辨率细节和粗糙的低分辨率线索(图2 (e))。图5显示,我们的中心凹描述符(从较低的卷积层中提取)的高分辨率成分对精确定位是至关重要的。
在这里插入图片描述
中心凹描述子是精确检测小目标的关键。小模板(top)在只有res4的情况下性能下降7%,在只有res5的情况下性能下降33%。相反,去除中央凹结构并不会损害大模板(底部),这表明从底层的高分辨率是最有用的寻找小物体!

我们的贡献(Our contribution)
  • 我们提供了图像分辨率、对象规模和空间背景的深入分析,以寻找小面孔。我们展示了大量基准面部数据集(FDDB和WIDER face)的最新结果。特别是,与现有技术在WIDER FACE上相比,我们的结果将误差降低了2倍(我们的模型产生的AP为82%,而现有技术的AP范围为29-64%)。

相关工作(Related work)

标度不变性(Scale-invariance)
  • 绝大多数的识别管道关注于尺度不变表示,可以追溯到SIFT[15]。目前的检测方法,如Faster RCNN[18],也认同这一理念,通过ROI池或图像金字塔[19]提取尺度不变特征。我们对尺度变异模板进行了深入的探索,这些模板以前被提出用于行人检测[17],有时在速度提高[3]的背景下。SSD[13]是一种基于深度特性的新技术,它利用了可伸缩的模板。我们的工作不同于我们对微小物体检测的背景的探索。
上下文(Context)
  • 上下文是发现多个识别任务中显示的小实例的关键。在目标检测中,[2]堆栈空间rnn (IRNN[11])模型在感兴趣区域之外的上下文,显示出改进的小目标检测。在行人检测中,[17]将地平面估计作为上下文特征,改进了对小实例的检测。在人脸检测中,[28]同时对人脸和身体周围的ROI特征进行评分检测,显著提高了整体性能。我们提议的工作以一种可变的方式(相对于[28])利用大型本地上下文(相对于全局上下文描述符[2,17])。我们证明了上下文对于寻找低分辨率的人脸是非常有用的。
多尺度表示(Multi-scale representation)
  • 多尺度表示在许多识别任务中被证明是有用的。[8,14,1]表明,深度多尺度描述符(称为“超列”)对于语义分割是很有用的。[2, 13]演示了这种模型在目标检测方面的改进。[28]池多尺度ROI特征。我们的模型使用了“超列”特征,指出精细尺度特征对定位小对象最有用(第3.1节和下图)。在这里插入图片描述
RPN
  • 从表面上看,我们的模型类似于为特定对象类训练的区域提议网络(RPN),而不是一般的“objectness”提议生成器[18]。重要的区别在于,我们使用了中心凹描述符(通过多尺度特征实现),我们通过交叉验证选择了一系列的对象大小和方面,我们的模型利用图像金字塔来寻找极端尺度。特别是,我们发现小物体的方法是利用特定规模的探测器来调整插值图像。如果没有这些修改,小脸的性能会显著下降10%以上(下表)。
    在这里插入图片描述

三、探索上下文和解决方案(Exploring context and resolution)

  • 在本节中,我们将对影响我们最终模型的问题进行探索性分析。为了构建讨论框架,我们问以下简单的问题:找到固定尺寸(25x20)的小面最好的方法是什么?通过显式地分解出所需输出的规模变化,我们可以探讨上下文和规范模板大小的作用。直觉上,上下文对于寻找小脸是至关重要的。规范模板的大小似乎是一个奇怪的维度来探索-既然我们想找到大小为25x20的面,为什么定义一个任何大小不是25x20的模板呢?我们的分析给出了一个令人惊讶的答案,什么时候以及为什么应该这样做。为了更好地理解我们的分析的含义,在此过程中,我们还对一个大型物体提出了类似的问题:找到固定尺寸(250x200)的大型面的最佳方法是什么?
Setup
  • 我们探索了不同的策略来为固定大小(例如,25x20)的面构建扫描窗口检测器。我们对待固定大小的对象检测作为一个二进制的热图的预测问题,在预测的热图像素位置(x, y)指定的信心fixedsize检测集中在(x, y)。我们训练的热图预测使用一个完全卷积网络(FCN)[14]定义在一个先进的架构ResNet[9]。我们利用ResNet-50对每个res-block的最后一层提取的多尺度特征(res2cx, res3dx, res4fx, res5cx)进行了探索。今后我们将把这些称为(res2, res3, res4, res5)特性。我们将在第5节中讨论培训管道的其他细节。
3.1 上下文(Context)
  • 图4给出了上下文影响的分析,由用于热图预测的接受场(RF)的大小给出。回想一下,对于固定大小的检测窗口,我们可以选择使用与此窗口相比具有任意更小或更大接受域的特征进行预测。因为更高层的卷积特征往往有更大的接受域(例如,res4特征跨度291x291像素),较小的接受域需要使用较低层特征。我们看到了一些总体趋势。添加上下文几乎总是有帮助的,但最终为细小的面孔(超过300x300像素)添加额外的上下文是有害的。
    在这里插入图片描述
    建模额外的背景会有所帮助,特别是在寻找小面孔时。小面孔(18.9%)比大面孔(1.5%)的效果更好。有趣的是,对于小脸来说,较小的接受域效果更好,因为整个脸都是可见的。绿色框代表实际的人脸大小,虚线框代表接受域与不同层次的特征相关(青色= res2,浅蓝色= res3,深蓝色= res4,黑色= res5)。图5和图7使用了相同的颜色。
    我们验证了这是由于过度拟合(通过检查训练和测试性能)。有趣的是,较小的接受域对于小脸更好,因为整张脸都是可见的——如果只看鼻尖很难找到大脸。更重要的是,我们通过比较“紧密”RF(限制在对象范围内)的性能与带有附加上下文的最佳得分“松散”RF的性能来分析上下文的影响。小脸的正确率提高了18.9%,大脸的正确率提高了1.5%,这与我们的人类实验一致(这表明上下文对小实例最有用)。我们的结果表明,我们可以为具有相同接受域(尺寸为291x291)的不同大小的检测器构建多任务模板,这作为一个多通道热图预测问题特别容易实现(其中每个尺度特定的通道和像素位置有自己的二进制损失)

在这里插入图片描述
在图5中,我们比较了有和没有中央凹结构的描述符,这表明我们的中央凹描述符的高分辨率成分对于小实例的准确检测是至关重要的。

3.2. Resolution
  • 我们现在探讨一个相当奇怪的问题。如果我们故意训练一个大小不同于要检测的目标对象的模板会怎样?理论上,我们可以使用一个“中等”尺寸的模板(50x40)在一个2X上采样(插值)的测试图像上找到微笑的脸(25x20)。图7实际上显示了一个令人惊讶的结果,即这显著地提高了性能,从69%提高到75%!对于大脸,我们问相反的问题:我们可以通过在测试图像上运行一个调优为“中等”脸(125x100)的模板来找到大脸(250x200)吗?再一次,我们看到了性能的显著提高,从89%到94%!
    在这里插入图片描述
    在原始分辨率下建立模板不是最佳的。对于寻找小的(25x20)面,创建2倍分辨率的模板可以提高6.3%的整体精度;而对于寻找大的(250 × 200)面,构建0.5 ×分辨率的模板可以提高5.6%的整体精度。

  • 一种解释是,对于不同大小的对象,我们有不同数量的训练数据,并且我们希望对于那些大小的对象,使用更多的训练数据,我们会有更好的性能。在诸如WIDER FACE和COCO[12]这样的“野外”数据集中反复观察到,较小的物体大大多于较大的物体,部分原因是更多的小物体可以在固定大小的图像中被标记出来。我们在下图(灰色曲线)中验证了这一点。
    在这里插入图片描述
    模板解析分析。x轴表示目标对象大小,由聚类派生。左Y轴显示每个目标大小的AP(忽略超过0.5 Jaccard距离的对象)。图中出现了自然机制:为了寻找较大的面孔(高度超过140px),构建0.5分辨率的模板;为了寻找更小的面(高度小于40px),创建2X分辨率的模板。对于介于两者之间的大小,构建1X分辨率的模板。右y轴和灰色曲线显示每个对象大小在0.5 Jaccard距离内的数据数量,表明更多的小面孔被标注。
    虽然不平衡的数据可以解释为什么在中等模板下检测大脸更容易(因为有更多中等大小的脸可供训练),但它不能解释小脸的结果。中等面孔的训练例子较少,但使用中等大小的模板仍然表现得更好。

  • 我们发现,罪魁祸首在于预训练数据集(ImageNet)中对象规模的分布。下图显示了ImageNet中80%的训练示例包含“中等”大小的对象,在40到140px之间。具体来说,我们假设预先训练的ImageNet模型(用于微调,我们的尺度特定检测器)是针对该范围内的对象进行优化的,并且在可能的情况下,应该将标准尺寸模板的尺寸偏置在该范围内。我们将在下一节中验证这一假设,在这一节中,我们将描述构建具有不同规范分辨率的特定规模检测器的管道。
    在这里插入图片描述
    ImageNet数据集中平均对象尺度的分布(假设图像归一化为224x224)。超过80%的类别的平均对象大小在40到140像素之间。我们假设在ImageNet上预先训练的模型对该范围内的对象进行了优化。


四、方法:scale-specific检测

  • 人们很自然地会问一个后续问题:是否有一个针对特定对象大小选择模板分辨率的通用策略?我们证明可以利用多任务学习“暴力”训练不同分辨率的多个模板,并贪婪地选择最好的模板。事实证明,似乎有一个与我们在前一节中的分析一致的总体策略。
  • 首先,让我们定义一些符号。我们用t(h, w,σ)来表示一个模板。这样一个模板被调整来检测在分辨率σ下大小(h/σ, w/σ)的目标。例如,下图使用t(250,200,1)(上)和t(125,100,0.5)(下)来寻找250 × 200的面。

在这里插入图片描述

  • 给定一个图像和边界框的训练数据集,我们可以定义一组正则边界框形状,大致覆盖边界框形状空间。本文利用Jaccard距离d(Eq),通过聚类的方法来定义此类规范形状。
    在这里插入图片描述
    其中,si= (hi, wi)和sj= (hj, wj)是一对边界盒形状,J表示标准Jaccard相似度(并集重叠的交集)。
  • 现在对于每个目标对象大小si= (hi, wi),我们问:什么样的σi将使tiihi, σiwi, σi)的性能最大化?为了回答这个问题,我们简单地对每个σ∈Σ(某个固定集)的值训练单独的多任务模型,并对于每个对象大小取最大值。我们将每个分辨率特定的多任务模型的性能绘制为下图中的彩色曲线。
    在这里插入图片描述
    在每个(hi, wi)的最佳σi下,我们用“混合”分辨率(称为HR)重新训练一个多任务模型,该模型实际上遵循所有曲线的上包络线。有趣的是,存在不同策略的自然机制:寻找大的物体(大于140px的高度),使用2X较小的标准分辨率。要找到小对象(高度小于40px),使用2倍大的标准模板分辨率。否则,使用相同的(1X)分辨率。我们的结果与ImageNet的统计数据密切相关(图6),大多数对象都在这个范围内。
Pruning(修剪)
  • 前一节中的混合分辨率多任务模型有些多余。例如,模板(62,50,2),即寻找31x25个面的最优模板,在已知模板(64,50,1)(寻找64x50个面的最优模板)存在的情况下是冗余的。我们能去掉这些多余的部分吗?是的!为了直观的描述,我们向读者介绍图9中的标题。如下表所示,删除冗余模板会带来一些小的改进。从本质上讲,我们的模型可以减少一个小套scale-specific模板(调谐40 - 140 px高脸),可以运行在一个粗糙的图像金字塔(包括2 x插值),加上一组scale-specific模板设计寻找小面孔(不到20 px高)2 x插值图像。
    在这里插入图片描述
4.1 Architecture
  • 我们在下图中可视化了我们提议的架构。我们训练二进制多通道热图预测器来报告人脸大小范围(高度40-140px)的对象可信度。
    在这里插入图片描述
    我们检测管道的概述。从输入图像开始,我们首先创建coarse image pramid(包括2X插值)。然后,我们将缩放后的输入输入到CNN中,以预测每个分辨率下的模板响应(用于检测和回归)。最后,在原始分辨率下应用非最大抑制(non-maximum suppression, NMS)得到最终检测结果。虚线框表示端到端可训练部分。我们在粗糙的图像金字塔(包括2X插值)上运行a型模板(调整为40-140px高的面),而只在2X插值的图像上运行b型模板(调整为低于20px高的面)(图9)
    在这里插入图片描述
    删除冗余模板。假设我们在一个粗糙的图像金字塔(包括2X插值)上测试以1X分辨率(A)构建的模板。它们将覆盖更大范围的范围,除了极小的尺寸,这是最好的检测使用模板建立在2X,如图8所示。因此,我们最终的模型可以简化为两套特定比例的模板:(A)针对40140px高的人脸进行调整,并运行在一个粗糙的图像金字塔(包括2X插值);(B)针对小于20px的人脸进行调整,并仅运行在2X插值的图像中。
    然后,我们会找到带有粗糙金字塔图像的大脸和小脸,其中重要的是包括一个2X上采样阶段,带有专门用于该分辨率的热图(例如,专为小脸设计的小于20像素),对于共享cnn(shared CNNs),我们用ResNet101、ResNet50和VGG16进行了实验。虽然ResNet101表现最好,但表2中包含了所有模型的性能。我们看到,与现有技术相比,所有模型在“硬”集上都取得了实质性的改进,包括CMS-RCNN[28],它也建模上下文,但以比例方式(图3)。
    在这里插入图片描述
    验证我们的模型在不同架构下的性能。ResNet101的表现略好于ResNet50,远远好于VGG16。重要的是,我们基于vgg16的模型在“硬”集上已经大大优于现有技术。
Details
  • 给定带有对象和模板ground-truth注释的训练图像,我们定义正位置为IOU重叠超过70%的位置,负位置为重叠低于30%的位置(去掉梯度忽略所有其他位置)。请注意,这意味着每个大对象实例生成的正训练实例要比小实例多得多。由于这导致了一个高度不平衡的二值分类训练集,我们使用平衡采样[7]和硬例挖掘[21]来改善这种效果。我们发现,性能提高后处理线性回归,微调报告的边界盒位置。为了确保我们对数据进行类似于测试条件的训练,我们随机调整训练数据的大小,使其达到我们在测试时考虑的Σ分辨率范围(0.5x,1x,2x),并从每个图像500x500个固定大小的随机裁剪区域中学习(以利用批处理的优势)。我们在WIDER FACE训练集上以固定的学习速率10 - 4对预先训练过的ImageNet模型进行了优化,并对WIDER FACE验证集(用于诊断)和保留测试集上的性能进行了评估。为了生成最终的检测,我们对检测到的热图应用标准NMS,重叠阈值为30%。我们在附录b中讨论更多的训练细节。我们的代码和模型都可以在https://www.cs.cmu.edu/ peiyunh/tiny上找到。

五、实验

  • WIDER FACE(更广泛的脸) 我们在WIDER FACE的训练集上训练了一个有25个模板的模型,并报告了我们的最佳模型HR-ResNet101 (a +B)在保留测试集上的性能。如下图所示,我们的混合分辨率模型(HR)在所有难度级别上都实现了最先进的性能,但最重要的是,减少了2倍的“硬”设置的错误。注意,“硬”集包括所有大于10px的面,因此更准确地表示整个测试集的性能。
    在这里插入图片描述
    在WIDER FACE“hard”测试装置上的精确回忆曲线。与现有技术相比,我们的方法(HR)将误差降低了2倍。
    我们在下图中可视化了一些具有挑战性的场景下的性能。请参考基准网站的全面评估和我们的附录A更多定量诊断[10]。
    在这里插入图片描述
    对WIDER FACE的定性结果。我们为每个属性和比例可视化一个示例。我们提出的检测器能够在连续范围的尺度下检测人脸,同时对表情、模糊、照明等挑战具有鲁棒性。请放大看一些非常小的发现。
  • FDDB 我们在FDDB上测试了我们的WIDER face训练模型。我们的开箱即用检测器(HR)在离散分数上优于所有发布的结果,它使用标准的50%交集过并阈值来定义正确性。因为FDDB使用边界椭圆,而WIDER FACE使用边界盒,所以我们训练一个自适应线性回归器将边界盒预测转换为椭圆。使用事后回归器,我们的检测器在连续评分(测量平均边界盒重叠)上也实现了最先进的性能。我们的回归者接受过十倍交叉验证的训练。
    下图绘制了我们的检测器的性能,无论是有和没有椭圆回归器(ER)。
    在这里插入图片描述
    FDBB检验的ROC曲线。我们的预训练检测器(HR)产生最先进的离散检测(左)。通过学习将边界框转换为椭圆的事后回归器,我们的方法(HR-ER)也产生了最先进的连续重叠(右)。我们只比较发表的结果。
    定性结果如下图所示。请参阅我们的附录B,以了解我们的椭圆回归方程。在这里插入图片描述
    FDDB的定性结果。绿色椭圆为地面真实值,蓝色边界框为检测结果,黄色椭圆为回归椭圆。我们提出的检测器是鲁棒的重遮挡,重模糊,大外观和规模方差。有趣的是,许多面临这种挑战的人甚至没有注释(第二个例子)。
  • Run-time(运行时间) 我们的运行时主要是通过运行一个“完全卷积”的网络来跨越一个2x -up采样的图像。我们基于resnet101的检测器在1080p分辨率下运行速度为1.4FPS,在720p分辨率下运行速度为3.1FPS。重要的是,我们的运行时间独立于图像中的面数。这与基于提议的检测器(如Faster R-CNN[18])形成对比,后者与提议的数量成线性比例。
  • 结论:我们提出了一个简单而有效的寻找小对象的框架,证明了大背景和尺度变化的表现都是至关重要的。我们特别指出,巨大的接受域可以有效地编码为一个中心凹描述符,可以捕获粗糙的上下文(检测小物体的必要条件)和高分辨率的图像特征(有助于定位小物体)。我们还探索了现有预训练的深度网络的规模编码,提出了一种简单的方式,以规模变化的方式外拉网络,以应对有限规模或更极端的场景。最后,我们使用我们对尺度、分辨率和上下文的详细分析来开发一个最先进的人脸检测器,它显著优于之前在标准基准上的工作。
实验细节
  • 多尺度特征 受[20]对“FCN-8s”同时训练的启发,我们用一个固定常数来衡量建立在每一层之上的预测器的学习率。具体来说,我们对res4使用1的比例因子,对res3使用0.1,对res2使用0.01。我们的模型和[20]之间的另一个区别是:我们的模型不是在原始分辨率下预测,而是在res3特征的分辨率下预测(与输入分辨率相比下降了8X)。
  • 输入采样 (input sampling) 我们首先将输入图像随机缩放0.5X, 1X,或2X。然后我们在缩放后的输入中随机裁剪一个500x500的图像区域。当裁剪图像边界外时,我们填充平均RGB值(在平均减法之前)。
  • 边界情况(Border cases) 与[18]类似,我们忽略了来自检测窗口越过图像边界的热图位置的梯度。唯一的区别是,我们也将填充的平均像素(如输入采样中所述)作为图像的外部边界。
  • 在线硬挖掘和均衡抽样 (Online hard mining and balanced sampling) 在正、负两方面都应用了硬挖掘。与[21]相比,我们的实现更简单,但仍然有效。我们设置了一个小的分类损失阈值(0.03)来过滤出容易的位置。然后,我们从损失超过阈值的剩余部分中,对正的和负的(分别)最多抽取128个位置。
    在下表中,我们比较了使用硬挖掘和不使用硬挖掘的训练对验证性能的影响。
    在这里插入图片描述
    有和没有硬挖掘训练的比较。我们展示了在WIDER FACE验证集上的性能。两种模型都采用平衡采样训练,并使用ResNet-101体系结构。结果表明,难采矿对最终性能没有明显影响。
  • Loss function (损失函数) 我们的损失函数和[18]是一样的。注意,我们还使用Huber损失作为包围盒回归的损失函数。
  • Bounding box regression (边界框回归) 我们的边界盒回归公式为[18],并与随机梯度下降分类联合训练。我们比较了使用回归测试和不使用回归测试在WIDER FACE验证集上的性能。
  • **Bounding ellipse regression (边界椭圆回归) ** 我们的边界椭圆回归公式为:在这里插入图片描述
    其中xc, yc, ra, rb, θ表示中心x-,y-坐标,地面真半轴,和地面真椭圆的旋转角。Xc, yc, h, w表示我们预测的边界框的中心x-,y-坐标,高度和宽度。我们离线学习边界椭圆线性回归,使用与训练边界盒回归相同的特征
  • Other hyper-parameters (其他超参数) 我们使用固定的学习速率为10−4,重量衰减为0.0005,动量为0.9。我们使用20张图像的批量大小,从每张图像的重新缩放版本中随机裁剪一个500x500的区域。通常,我们对模型进行50个epoch的训练,然后在验证集上选择性能最好的epoch。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值