昨天看下Mask-rcnn的keras代码,Github上start最多的那个。由于代码量比较多,所以需要梳理下整个流程。今天用visio简单绘制下整个数据流程图,方便理解整个算法。里面的知识点还是比较多的,所以搞清楚一个算法的细节,需要我们认真阅读下源码,并思考为什么这样做。只要能够掌握好细节,我们才可以对算法部分进行改进。
注:黑色是第一阶段,也就是RPN阶段。红色是第二阶段,也就是使用RPN的输出进行分类,框回归以及分割。金字塔特征就是p2,p3,p4,p5,p6。
输入张量:
input_image, 输入图像 shape(None,h,w,n) 其中h、w必须是2^6=64的倍数
input_image_meta= np.array(
[image_id] + # size=1
list(original_image_shape) + # size=3
list(image_shape) + # size=3
list(window) + # size=4 (y1, x1, y2, x2) in image cooredinates
[scale] + #