感谢 @马塔 的答案,不过我想反对一下。顺便吐槽一下知乎现在的氛围,即使是这种专业的领域也是有一群小白,在自己没有仔细考虑过答案对不对的情况下,只是因为“有图”、“看起来很靠谱”就胡乱点赞,以为知乎点赞就像朋友圈点赞一样随便。。(我猜等小白多了之后我这种认为点赞应该严肃的人就会被喷了)
@马塔 说的 “anchor 本质是 spp 的逆向”是错误的,原因不难理解,anchor 在图像中对应的尺寸和长宽比例是各种各样的,有的甚至还超过了滑动窗口的 3x3 输入的感受野的范围。如果说一块 feature map 通过网络的学习,只关注感受野内某一块区域的信息,这个是合理的,但要说它同时来自 9 个不同的区域,这显然有点魔幻的感觉,更不用说有的区域根本就超出了它感受野的范围。
anchor 让网络学习到的是一种推断的能力。网络不会认为它拿到的这一小块 feature map 具有七十二变的能力,能同时从 9 种不同的 anchor 区域得到。拥有 anchor 的 rpn 做的事情是它已知图像中的某一部分的 feature(也就是滑动窗口的输入),判断 anchor 是物体的概率。anchor 可能比感受野大,也可能比感受野小,如果 anchor 比感受野大,就相当于只看到了我关心的区域(anchor)的一部分(感受野),通过部分判断整体,如果比感受野小,那就是我知道比我关心的区域更大的区域的信息,判断其中我关心的区域是不是物体。