官方链接:https://pytorch.org/vision/main/generated/torchvision.ops.MultiScaleRoIAlign.html
问题:为何输出(6,5,3,3)
思考:进行MultiScaleAlign时,第二个参数为output_size,所以最后输出的单张特征图大小为(3,3);而shape[1]的5则是feature map的通道数,这个在RoiAlign后应该是不变的;
至于shape[0]=6,思考过为何不是12,因为定义的6个bbox在2张feature map上都应该有对应?对官方代码进行实验:
输出分别为:
这就清楚了为什么是(6,5,3,3)而不是(12,5,3,3):当对2个feature map进行RoiAlign时,只对上一层特征图进行操作得到对应的特征向量。
参考: