最开始的特征提取:图片有多种形式的分辨率或者大小,最开始的特征提取时分别在不同分辨率或者不同大小的情况下,分别提取特征进行预测接着人们只使用一个单个scale的预测,特征经过最终的提取后,达到最高级后,进行预测再然后人们对各个层的特征均进行预测形成一个自上而下或横向连接的结合(Top-down 是2x的下采样,横向连接时1*1conv)