ps:现在忙了好多,没时间更新博客了.现在我就简单直观得讲下retinanet网络模型结构.
网上超多的博客的retinanet的结构只是放了如下:
这里面的(a)和(b)之间的结构还是比较直观的也能理解(最多实际过程中FPN的输出层数变化会有偏差),但是(b)和(c),(d)之间看起来比较明确,但是对于最开始作为初学者的我存在这样的想法如果一个FPN输出的一个层后面会有W*H*KA和W*H*4A两个输出,那么如图上3个层,那不是要分别有三个W*H*KA和W*H*4A共6个输出,之后求loss要写六个么?
后来一步步调试了代码再看时发现,其实只有两个输出如图中FPN的输出层数是三层时是
和
也就是将多维矩阵的结果resize到2维然后拼接起来.