问题
这个问题拖到现在才开始整理属实不应该,实习面华为的时候被问过,我对 Cascade RCNN 的理解貌似面试官不太认同,于是便把这个问题放入了列表中,然后前天面科大讯飞的时候又被问到 Cascade RCNN 的 motivation 是什么,我这时候的回答不知道面试官满不满意,但是更加强烈地觉得这个网络可能还有更多的精髓,因此这篇详细来整理一下。
先介绍一下 Faster RCNN中相关的一些点:
在 Faster RCNN 中,训练阶段,经过 RPN 之后,会提出 2000 左右个 proposals ,这些 proposals 会被送入到 Fast R-CNN 结构中,在 Fast R-CNN 的结构中,首先会计算每个 proposals 和 gt 之间的 IOU ,然后通过人为设定的 IOU 阈值(通常为 0.5),把这些 proposals 分成正样本和负样本(之后正样本才会参与到后面的 bbox 回归学习,从损失函数的表达中也可以看出来,只有正样本才被算入损失函数中),并对这些样本进行采样,使得他们之间的比例尽量满足(1:3,二者总数为 128 ),之后这 128 个proposals 被送入到 Roi Pooli