目录
Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision
论文地址
滴滴的一篇关于人脸检测的文章,主要有两个改进点:一个是用分割任务来辅助检测任务,一个是改善了FPN的结构。文章的主要贡献是加强了人脸检测模型对hard样本的性能。
文章指出现有FPN很多情况下高层特征会掩盖掉低层的细节信息,所以采用了一种类Attention的乘法机制。但是我个人感觉主要起恢复作用的应该是那个跨层连接。一个比较值得思考的问题是他是怎么看出是细节信息的缺失导致了性能的下降?并且全文后面所有的评测指标给出的都是AP(easy, medium, hard),感觉还需要一些AP(s,m,l)的数据佐证。
前人有提出分割与检测的联合训练可以有效提升检测的性能。本文直接用检测框生成分割mask,这样既避免了使用额外标注,又不会在测试时产生额外的计算。关于如何使用这个mask,则是在每一层FPN输出预测一个mask,这一层对应需要预测的bbox内标注为正样本,其余为负样本。另外,为了加速收敛并使检测分割高度相关,分类头、回归头与分割头的前几层都是共享权重的。
实验结果来看,将RetinaNet的FPN换成这种FPN的话可以在(e, m, h)上分别提升(0.8, 0.8, 6.2),也许hard样本更考验细节吧。这种FPN实现起来也不难,可以稍微试一下看看。
另外文中也用到了困难样本的数据扩增,原始数据集中的occlude样本数量并不足以提升AP hard,所以通过随机裁剪增加困难样本。
Switchable Whitening for Deep Representation Learning
规一化、白化操作经常出现在网络结构里,然而不同的任务往往会用到不同的归一化与白化操作。因此本文试图将所有类型的规范化整合成一个统一的形式,而让网络去自己学习该采用哪种方式。这篇文章的阅读主要作用在于了解规范化层的数学表达形式。
ϕ
(
X
n
)
=
Σ
−
1
/
2
(
X
n
−
μ
⋅
1
T
)
\phi(\textbf{X}_n)=\pmb{\Sigma}^{-1/2}(\textbf{X}_n-\pmb{\mu·1}^T)
ϕ(Xn)=ΣΣΣ−1/2(Xn−μ⋅1μ⋅1μ⋅1T)
如果是BN层的话,
X
n
\textbf{X}_n
Xn的形式就是
C
∗
N
H
W
C*NHW
C∗NHW,然后协方差矩阵就是一个
C
∗
C
C*C
C∗C的矩阵;如果是IN的话,就把每一张图片当作
C
∗
H
W
C*HW
C∗HW分别规范化。另外我觉得论文里的公式有问题,且不细表。如果把公式里的
Σ
\pmb{\Sigma}
ΣΣΣ只保留其对角元素的话,那就是只做归一化而不做白化。这篇文章的方式就是对每一种不同的均值向量与协方差矩阵用一个softmax归一化之后的权向量来加权,从而实现在不同类型的规范化中切换。
这篇论文里面对风格迁移和语义分割任务进行了实验,但是就检测而言的话,先考虑把BN的参数进行更新而后再考虑这个吧。