[论文笔记] PyramidBox阅读笔记

吉他A梦

已于 2022-08-04 17:22:23 修改

阅读量394

点赞数

分类专栏：论文笔记文章标签：深度学习计算机视觉目标检测

于 2022-08-03 23:34:24 首次发布

本文链接：https://blog.csdn.net/qq_44690067/article/details/126118692

版权

PyramidBox: A Context-assisted Single Shot Face Detector（ECCV 2018）

我是专门来看这篇文章中的context的做法的

context能不能用于进行坐标回归里面，而不仅仅用在分类当中

context相关论文：CMS-RCNN、SSH、FAN

整体方案（基于context）
- Low-level Feature Pyramid Network（LFPN）：将足够的high level特征和 low level 的特征结合在一起
- Context-sensitive prediction module (CPM)：引入context信息
- PyramidAnchors：设计一种“context anchor”，通过半监督方法监督high level上下文特征学习
- Data-anchor-sampling：增加不同尺度的训练样本数量

在这里插入图片描述

（能不能不要下采样，因为下采样之后，high-level的特征对应原图感受野太大了，特征融合之后的效果感觉更多的是一个整体的特征，并不能精细化）

在这里插入图片描述

CPM借鉴了SSH和DSSD。SSH通过在不同分支上不同的stride+conv堆叠来扩展感受野大小，学习更多的contextual information；DSSD使用residual block，得到deeper的预测分支。将SSH中的context module中的conv层换成DSSD的残差预测模块，这样CPM同时包含了DSSD+SSH的上下文信息的优势
CPM的输出。 $w_l×h_l×c_l$ ,其中 $w_l=h_l=\frac{640}{2^{2+l}}$ （和LFPN每个输出特征图的大小一致），通道 $c_l=20$ ，每个通道的特征分别用来进行分