Faster RCNN源码解读1-整体流程和各个子流程梳理

 

Faster RCNN复现

Faster RCNN源码解读1-整体流程和各个子流程梳理

Faster RCNN源码解读2-_anchor_component()为图像建立anchors(核心和关键1)

Faster RCNN源码解读3.1-_region_proposal() 筛选anchors-_proposal_layer()(核心和关键2)

Faster RCNN源码解读3.2-_region_proposal()筛选anchors-_anchor_target_layer()(核心和关键2)

Faster RCNN源码解读3.3-_region_proposal() 筛选anchors-_proposal_target_layer()(核心和关键2)

Faster RCNN源码解读4-其他收尾工作:ROI_pooling、分类、回归等

Faster RCNN源码解读5-损失函数

 

理论介绍:有关Faster RCNN理论介绍的文章,可以自行搜索,这里就不多说理论部分了。

复现过程:代码配置过程没有记录,具体怎么把源码跑起来需要自己搜索一下。

faster rcnn源码确实挺复杂的,虽然一步步解析了,但是觉得还是没有领会其中的精髓,只能算是略知皮毛。在这里将代码解析的过程给大家分享一下,希望对大家有帮助。先是解析了代码的整体结构,然后对各个子结构进行了分析。代码中的注释,有的是原来就有的注释,有的是参考网上别人的,有的是自己理解的,里面或多或少会有些错误,如果发现,欢迎指正!

本文解析的源码地址:faster rcnn源码

 

一,代码运行整体流程:

不加函数说明,这样看着更清晰一些。 下面主要会根据代码的架构,按块对代码进行解析。

 

二,anchor_component()为图像建立anchors(核心关键1)

 

三,_region_proposal()(核心关键2)

四,_crop_pool_layer()

单独的函数,没有调用其他函数。

五,_head_to_tail()

单独的函数,没有调用其他函数。

 

六,_region_classification()

单独的函数,没有调用其他函数。

 

_build_network() Faster_RCNN总框架

_build_netword用于创建网络,总体流程:

1)_image_to_head()函数,网络通过vgg1-5得到特征net_conv后

2)_anchor_component()函数,送入rpn网络得到候选区域anchors

3)_region_proposal()函数,去除超出图像边界的anchors并选出2000个anchors用于训练rpn网络(300个用于测试),并进一步选择256个anchors(用于rcnn分类)。

4)_crop_pool_layer()函数,之后将这256个anchors的特征根据rois进行裁剪缩放及pooling,得到相同大小7*7的特征pool5,

5)_head_to_tail()函数,pool5通过两个fc层得到4096维特征fc7,

6)_region_classification()函数,fc7送入_region_classification(2个并列的fc层),得到21维的cls_score和21*4维的bbox_pred。

  '''
  _build_netword用于创建网络,总体流程:
  1)_image_to_head()函数,网络通过vgg1-5得到特征net_conv后    
  2)_anchor_component()函数,送入rpn网络得到候选区域anchors    
  3)_region_proposal()函数,去除超出图像边界的anchors并选出2000个anchors用于训练rpn网络(300个用于测试),并进一步选择256个anchors(用于rcnn分类)。
  4)_crop_pool_layer()函数,之后将这256个anchors的特征根据rois进行裁剪缩放及pooling,得到相同大小7*7的特征pool5,
  5)_head_to_tail()函数,pool5通过两个fc层得到4096维特征fc7,
  6)_region_classification()函数,fc7送入_region_classification(2个并列的fc层),得到21维的cls_score和21*4维的bbox_pred。
  '''
  def _build_network(self, is_training=True):
    # select initializers  选择初始化方式
    if cfg.TRAIN.TRUNCATED:
      initializer = tf.truncated_normal_initializer(mean=0.0, stddev=0.01)
      initializer_bbox = tf.truncated_normal_initializer(mean=0.0, stddev=0.001)
    else:
      initializer = tf.random_normal_initializer(mean=0.0, stddev=0.01)
      initializer_bbox = tf.random_normal_initializer(mean=0.0, stddev=0.001)

    net_conv = self._image_to_head(is_training) # lib/nets/vgg16.py中定义,image_to_head用于得到输入图像的特征图像
    with tf.variable_scope(self._scope, self._scope):
      # build the anchors for the image 为图像建立anchors
      self._anchor_component() #通过调用generate_anchors_pre_tf产生w*h*9个anchors

      # region proposal network  RPN用于产生候选区域,从w*h*9个anchors到256个
      rois = self._region_proposal(net_conv, is_training, initializer)

      # region of interest pooling
      if cfg.POOLING_MODE == 'crop':
        # _crop_pool_layer用于将256个archors从特征图中裁剪出来缩放到14*14,
        # 并进一步max pool到7*7的固定大小,得到特征,方便rcnn网络分类及回归坐标。
        pool5 = self._crop_pool_layer(net_conv, rois, "pool5")
      else:
        raise NotImplementedError

    # _head_to_tail用于将上面得到的256个archors的特征(经过ROI_pooling操作后的pool5)增加两个fc层(ReLU)和两个dropout(train时有,test时无),
    # 降维到4096维,用于_region_classification的分类及回归。_head_to_tail位于lib / nets / vgg16.py中
    fc7 = self._head_to_tail(pool5, is_training)
    with tf.variable_scope(self._scope, self._scope):
      # 根据上面得到的fc7通过_region_classification进行分类及回归。
      cls_prob, bbox_pred = self._region_classification(fc7, is_training, 
                                                        initializer, initializer_bbox)

    self._score_summaries.update(self._predictions)

    return rois, cls_prob, bbox_pred

下面会对各个模块进行详细解析! 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Faster R-CNN和Mask R-CNN都是基于卷积神经网络(CNN)的目标检测方法。 Faster R-CNN是RPN(Region Proposal Network)和Fast R-CNN的结合,其中RPN用于在特征图上生成候选框,然后通过Fast R-CNN进行具体的分类和回归。Mask R-CNN在Faster R-CNN的基础上增加了一个Mask Prediction Branch,用于预测目标的精确分割掩码。 Faster R-CNN的工作流程是先使用RPN生成候选框,然后通过ROI Pooling将每个候选框内的特征提取出来,最后使用分类器和回归器对提取的特征进行分类和位置修正。而Mask R-CNN在这个基础上引入了ROI Align操作,可以更精确地对候选框进行特征提取,然后通过Mask Prediction Branch生成每个目标的精确分割掩码。 要理解Faster R-CNN和Mask R-CNN,可以从R-CNN开始学习。R-CNN是目标检测领域的开山之作,它通过选择性搜索(Selective Search)算法提取候选框,并使用CNN对这些候选框进行分类和位置修正。Fast R-CNN是对R-CNN的改进,将选择性搜索替换为ROI Pooling操作,提高了检测速度和准确性。Faster R-CNN进一步将RPN引入Fast R-CNN中,用于生成候选框,提高了检测的效率。 因此,可以说Faster R-CNN是RPN和Fast R-CNN的组合,而Mask R-CNN是在Faster R-CNN的基础上增加了一个Mask Prediction Branch和ROI Align操作,用于更精确地进行目标的分割。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [神经网络学习笔记7——目标检测,语义分割和实例分割中的RCNN、Fast RCNNFaster RCNN、FCN和Mask RCNN](https://blog.csdn.net/qq_45848817/article/details/127965649)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值