yolact结构图
网络backbone可以采用resnet101,resnet50甚至vgg16等。然后有3个分支,1个分支输出目标位置,1个分支输出mask系数,1个分类的置信率,所以决定目标的有4(位置)+k(mask系数)+c(分类置信率)个参数。
检测的大致步骤为:
1.从backbone中取出C3,C4,C5;
2.通过FPN网络生成P3,P4,P5,通过P5生成P6和P7
3.P3通过Protonet生成k个138138的proto原型
4.P3~P7通过Prediction Head网络各生成WxHxa(a为anchor数)个位置(4),mask系数(k)以及置信率信息©:
loc:[None,WxHxa,4]
mask:[None,WxHxa,k]
conf:[None,WxHxa,81]
5.把上面的结果进行fast-nms处理
6.FastNMS的处理结果和Protonet输出的k个138*138的proto原型进行组合运算(叠加,裁切,阈值分割)即