FasterRCNN官方MultiScaleRoIAlign解读

 官方链接:https://pytorch.org/vision/main/generated/torchvision.ops.MultiScaleRoIAlign.html

问题:为何输出(6,5,3,3)

思考:进行MultiScaleAlign时,第二个参数为output_size,所以最后输出的单张特征图大小为(3,3);而shape[1]的5则是feature map的通道数,这个在RoiAlign后应该是不变的;

至于shape[0]=6,思考过为何不是12,因为定义的6个bbox在2张feature map上都应该有对应?对官方代码进行实验:

 

 

输出分别为:

 

 

 这就清楚了为什么是(6,5,3,3)而不是(12,5,3,3):当对2个feature map进行RoiAlign时,只对上一层特征图进行操作得到对应的特征向量。

 

参考:

保姆级 faster rcnn 源码逐行解读 (五)roi_head part1 - 知乎 (zhihu.com) 

MultiScaleRoIAlign_写代码_不错哦的博客-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值