DenseBox (2015) (https://arxiv.org/abs/1509.04874)
densebox最早提出来是用来检测人脸的, 其有两个主要贡献, 第一是提出使用一个完整的FCN来预测box而不需要预先的proposal, 而且是end2end的训练过程; 第二是提出了用目标上已有的关键点信息来辅助box的定位.
为了节省训练时间, densebox没有直接把一整张图片都丢进去训练, 而是在目标周围裁剪出240240大小的patch丢进去训练, 最后输出6060*5的输出, 每个featuremap上的位置产生一个5d vector, 代表 (score, d x t d_{xt} dxt, d y t d_{yt} dyt, d x b d_{xb} dxb, d y b d_{yb} dyb), score就是该点的confidence, 0~1之间; ( d x t d_{xt} dxt