maskrcnn detectron2问答

最新推荐文章于 2024-04-22 17:47:19 发布

northeastsqure

最新推荐文章于 2024-04-22 17:47:19 发布

阅读量1.3k

点赞数

文章标签： maskrcnn detectron2

本文链接：https://blog.csdn.net/northeastsqure/article/details/103955075

版权

1.coco数据集instance的标注格式是什么？

1.2 那么json文件和图片文件夹该怎么放置

2.detectron2如何训练maskrcnn？

3.对于maskrcnn生成的mask，如何生成多边形拟合mask？

4.最开始的BasicStem是什么样的结构？

5.bottleneck是什么意思？

6.每个res block 是什么样子？

7.resnet每个res阶段如何构成，用res50举例说明。

1.coco数据集instance的标注格式是什么？

有一个巨大的json文件，里面关于标注的类目是coco_json['annotations']=[], 每个item是一个segmentation:

"annotations": [{"id": 1, "image_id": 1, "category_id": 95324.0, "iscrowd": 0, "area": 1, "bbox": [0.

其正式定义为：

annotation{
    "id": int,    
    "image_id": int,
    "category_id": int,
    "segmentation": RLE or [polygon],
    "area": float,
    "bbox": [x,y,width,height],
    "iscrowd": 0 or 1,
}

例如：

{"id": 1, "image_id": 199998, "category_id": 1598.0, 
"iscrowd": 0, "area": 1, "bbox": [352.0, 516.0, 96.0, 31.0],
 "segmentation": [[438.0, 539.0], [362.0, 540.0], 
           [360.0, 519.0], [436.0, 518.0]], "width": 720, 
"height": 1160}

1.1这个json里面的annotaions怎么和图片文件关联的呢？

json_coco['images']=[], 每个item是一个：

{
	"license":3,
	"file_name":"COCO_val2014_000000391895.jpg",
	"coco_url":"http:\/\/mscoco.org\/images\/391895",
	"height":360,"width":640,"date_captured":"2013-11-14 11:18:45",
	"flickr_url":"http:\/\/farm9.staticflickr.com\/8186\/8119368305_4e622c8349_z.jpg",
	"id":391895
},

这里id和file_name做了关联，而每个annotation字段有id，间接关联了file_name

1.2 那么json文件和图片文件夹该怎么放置

是没有要求的，因为detectron2里面，加载coco数据集使用：

from detectron2.data.datasets import register_coco_instances
register_coco_instances("fruits_nuts", {}, "./data/trainval.json", "./data/images")

2.detectron2如何训练maskrcnn？

参见：https://www.dlology.com/blog/how-to-train-detectron2-with-custom-coco-datasets/

https://colab.research.google.com/github/Tony607/detectron2_instance_segmentation_demo/blob/master/Detectron2_custom_coco_data_segmentation.ipynb#scrollTo=Lnkg1PByUjGQ

3.对于maskrcnn生成的mask，如何生成多边形拟合mask？

Python: cv2.approxPolyDP(curve, epsilon, closed[, approxCurve]) → approxCurve

curve,输入的二维点对， epsilon 生成的多边形和mask contour最大的距离， closed 是否封闭

4.最开始的BasicStem是什么样的结构？

首先7x7卷积，stride=2, 然后pool, stride=2,即把尺度缩小4倍。

5.bottleneck是什么意思？

瓶颈。每个bottleneck block，首先降维2倍，然后不变维，然后升维4倍

6.每个res block 是什么样子？

一个直连升维2倍卷积，和多个bottleneck bock，如3个，最后合并在一起。

7.resnet每个res阶段如何构成，用res50举例说明。

resnet50， 101， 152：{50: [3, 4, 6, 3], 101: [3, 4, 23, 3], 152: [3, 8, 36, 3]}

resnet50:首先是一个7x7卷积，stride=2; 然后res2, 有3个bottleneck, 每个bottleneck有3次卷积，第一次降维2倍，不变，再升维4倍，并上直连卷积升维2倍层, 不降维，其中res2不降维,后面res3,res4,res5都会，第一个bottleneck就降尺度，stride=2；

res2后面接res3,有4个这样的bottleneck;然后res4, 6个bottleneck; res5有3个bottleneck.总体结构还是模仿vgg, 5个阶段。

ResNet(
      (stem): BasicStem(
        (conv1): Conv2d(
          3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False
          (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
        )
      )
      (res2): Sequential(
        (0): BottleneckBlock(
          (shortcut): Conv2d(
            64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv1): Conv2d(
            64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
          )
          (conv2): Conv2d(
            64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
          )
          (conv3): Conv2d(
            64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
        )
        (1): BottleneckBlock(
          (conv1): Conv2d(
            256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
          )
          (conv2): Conv2d(
            64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
          )
          (conv3): Conv2d(
            64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
        )
        (2): BottleneckBlock(
          (conv1): Conv2d(
            256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
          )
          (conv2): Conv2d(
            64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
          )
          (conv3): Conv2d(
            64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
        )
      )
      (res3): Sequential(
        (0): BottleneckBlock(
          (shortcut): Conv2d(
            256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
          (conv1): Conv2d(
            256, 128, kernel_size=(1, 1), stride=(2, 2), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv2): Conv2d(
            128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv3): Conv2d(
            128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
        )
        (1): BottleneckBlock(
          (conv1): Conv2d(
            512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv2): Conv2d(
            128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv3): Conv2d(
            128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
        )
        (2): BottleneckBlock(
          (conv1): Conv2d(
            512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv2): Conv2d(
            128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv3): Conv2d(
            128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
        )
        (3): BottleneckBlock(
          (conv1): Conv2d(
            512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv2): Conv2d(
            128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
          )
          (conv3): Conv2d(
            128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
        )
      )
      (res4): Sequential(
        (0): BottleneckBlock(
          (shortcut): Conv2d(
            512, 1024, kernel_size=(1, 1), stride=(2, 2), bias=False
            (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
          )
          (conv1): Conv2d(
            512, 256, kernel_size=(1, 1), stride=(2, 2), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv2): Conv2d(
            256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv3): Conv2d(
            256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
          )
        )
        (1): BottleneckBlock(
          (conv1): Conv2d(
            1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv2): Conv2d(
            256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv3): Conv2d(
            256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
          )
        )
        (2): BottleneckBlock(
          (conv1): Conv2d(
            1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv2): Conv2d(
            256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv3): Conv2d(
            256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
          )
        )
        (3): BottleneckBlock(
          (conv1): Conv2d(
            1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv2): Conv2d(
            256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv3): Conv2d(
            256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
          )
        )
        (4): BottleneckBlock(
          (conv1): Conv2d(
            1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv2): Conv2d(
            256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv3): Conv2d(
            256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
          )
        )
        (5): BottleneckBlock(
          (conv1): Conv2d(
            1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv2): Conv2d(
            256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
          )
          (conv3): Conv2d(
            256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
          )
        )
      )
      (res5): Sequential(
        (0): BottleneckBlock(
          (shortcut): Conv2d(
            1024, 2048, kernel_size=(1, 1), stride=(2, 2), bias=False
            (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
          )
          (conv1): Conv2d(
            1024, 512, kernel_size=(1, 1), stride=(2, 2), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
          (conv2): Conv2d(
            512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
          (conv3): Conv2d(
            512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
          )
        )
        (1): BottleneckBlock(
          (conv1): Conv2d(
            2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
          (conv2): Conv2d(
            512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
          (conv3): Conv2d(
            512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
          )
        )
        (2): BottleneckBlock(
          (conv1): Conv2d(
            2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
          (conv2): Conv2d(
            512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
          )
          (conv3): Conv2d(
            512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False
            (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
          )
        )
      )
    )
  )

8. 各层的通道数是什么样的？

_out_feature_channels: { 'stem': 64，'res2': 256, 'res3': 512, 'res4': 1024, 'res5': 2048,}

9.各层的尺度是？

_out_feature_strides: {'stem': 4, 'res2': 4, 'res3': 8, 'res4': 16, 'res5': 32, }

10.fpn层是什么样子的？

从下网上看，尺度逐渐增大，最后加一个top_block

'top_block': LastLevelMaxPool()
'fpn_lateral2': Conv2d(256, 256, kernel_size=(1, 1), stride=(1, 1))
'fpn_lateral3': Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1))
'fpn_lateral4': Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1))
'fpn_lateral5': Conv2d(2048, 256, kernel_size=(1, 1), stride=(1, 1))
'fpn_output2': Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
'fpn_output3': Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
'fpn_output4': Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
'fpn_output5': Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

11.rpn是怎么生成的？

fpn输入特征：IN_FEATURES: ["p2", "p3", "p4", "p5", "p6"]，其中2是对应resn的stride的对数，就和resn对应，p6,p7,就是后面加的两层卷积，每层stride=2

        self.p6 = nn.Conv2d(in_channels, out_channels, 3, 2, 1)
        self.p7 = nn.Conv2d(out_channels, out_channels, 3, 2, 1)

12.训练时候输入尺度多大？

MIN_SIZE_TRAIN: (640, 672, 704, 736, 768, 800)

_C.INPUT.MAX_SIZE_TRAIN = 1333

训练时候最小尺度，是从列表里面，随机选的。

13. maskrcnn 和deeplab对比，优劣分析？

实验发现deeplab没有一个整体观念，因为目标只是做pixel分类，而maskrcnn有一个方框检测，是有物体检测的整体概念的，实际中，尽量使用maskrcnn，不建议使用deeplab, 除非有特别理由。如下图所示：

northeastsqure

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
maskrcnn detectron2问答

1.coco数据集instance的标注格式是什么？有一个巨大的json文件，里面关于标注的类目是coco_json['annotations']=[], 每个item是一个segmentation:"annotations": [{"id": 1, "image_id": 1, "category_id": 95324.0, "iscrowd": 0, "area": 1, "bb...
复制链接

扫一扫