MASK R-CNN

最新推荐文章于 2023-10-16 17:42:52 发布

TWSF

最新推荐文章于 2023-10-16 17:42:52 发布

阅读量247

点赞数

分类专栏：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dcz1994/article/details/89883400

版权

计算机视觉专栏收录该内容

19 篇文章 0 订阅

订阅专栏

https://github.com/facebookresearch/Detectron.

1. 素质四连

要解决什么问题？

- 之前的研究使得物体检测、图像分割任务的性能有了很大的提高，但对物体分割任务（instance segmentation）没有很大提升。
- 建立一套基于物体分隔的模型架构。

用了什么方法解决？

- 在Faster R-CNN添加了预测mask的部分（与预测bbox的类别信息与位置信息平行）。

效果如何？

- 没有进行大规模优化，就在COCO数据集的三项任务——物体分割、物体检测、人体关键点检测中超过其他所有模型。
- 使用RoI Align解决 mis-alignment 的问题，提高模型精度（特别是对于小物体）。

还存在什么问题？

- Faster R-CNN系模型的主要问题在于测试速度慢，达不到实时要求。
- PS：为了训练COCO，论文中用8GP训练了2天，对我这种就1块GPU的人来说……

2. 网络结构

2.1. 综述

大部分结构与Faster R-CNN相同。
不同之处：

- 使用RoIAlign替代RoIPool。
- 添加预测mask的分支（与预测bbox平行）。

2.2. 论文配图如下

流程介绍：

- 原始图片（图中最左边的图片）通过基础网络（图中忽略）提取特征。
- RPN（图中忽略）以基础网络特征图为输入，获取一系列RoI（图中 RoIAlign 层中的多个矩形框），即候选区域。
- RoIAlign（图中RoIAlign）以基础网络特征图为输入，结合RPN层获取的RoI，为每个RoI获取固定尺寸的特征图（图中左边数第一个conv层）。
- 以RoIAlign层输出的固定尺寸特征图为输入，预测图像的bbox，包括位置信息与分类信息。（即图中获取 class box的结果）。
- 以RoIAlign层输出的固定尺寸特征图为输入，预测图像的mask。（即图中两个conv以及最终结果）。

2.3. 模型分层

基础网络，论文中使用了以下两中基础网络：

- Faster R-CNN原文中使用的ResNet。
- 另一篇论文中提到的 ResNet-EPN。

Head Architecture：

- 以基础网络输出作为输入，预测bbox、instance segmentation信息。
- 与Faster R-CNN不同之处（论文配图如下）

- - 灰色背景部分是原先的结构，其他部分是Mask R-CNN的添加部分。

3. 重点

3.1. Mask

Mask的设计：

- 对每个RoI分别预测其mask。
- 解耦（decouple）mask和分类信息，换句话说，就是每一类物体分别预测mask。
- 从模型角度，每个RoI的的mask预测结果尺寸为[m, m, k]，其中m为mask的长宽，k为分类数量。
- 在实际运行时，根据RoI的分类信息，来选择对应通道的mask。

如何计算mask？

- 输入：RoIAlign输出的固定尺寸特征图。
- 输出：shape为[m, m, k]的mask。
- 方法：论文中说，利用FCN论文（图像分割算法）中的方法计算，本质就是利用转置卷积操作。
- 其他方法：参考资料TensorFlow Object Detection API 中的 box_predictor.py，_predict_masks函数使用了bilinear resize和convolution来替代转置卷积。

3.2. RoIAlign

参考博客（强烈推荐）：详解 ROI Align 的基本原理和实现细节。
强烈推荐看上面这篇文章，但我自己还是要稍微总结一下。
RoIAlign要解决的问题（即RoI Pooling存在缺陷）：

- 在计算RoI Pooling时，会进行两次量化（在这里指的就是去掉小数部分，只保留整数）：

- - 获取每个RoI在基础网络特征图中对应的区域时，会对对应区域的特征图边界进行量化。
  - 在将RoI对应的特征图转化为固定尺寸的特征图时，也会进行量化。

- 问题描述：在进行量化时，特征图对应的原始数据会有减少，影响模型整体精度。

解决方案：保留所有特征图所在浮点数位置坐标，使用双线性插值获取特征图上所有点的取值。
论文配图如下：

- 图中黑色点就是当前特征图中各点位置（位置坐标不一定是整数）。
- 图中虚线相交点位置就是原始特征图中各点的实际位置（位置坐标都是整数）。
- 以左上角黑点为例，双线性插值通过与四个当前黑点最近的实际特征点（位置坐标都是整数），来计算当前特征点（位置坐标不一定是整数）取值。

3.3. 训练细节

损失函数：

- 分为三部分：分类损失（与Faster R-CNN相同），位置损失（与Faster R-CNN相同），mask损失（本论文特有）。
- Mask 损失：

- - mask的结果是K*m*m维向量，其中K为类别数量，m*m是mask的最终输出长宽。
  - 计算每个像素的sigmoid结果，最终Mask 损失就是二维交叉熵损失的平均值（average binary cross-entropy loss）。

每个GPU同时训练两张图片（作者用了8GPU，所以batch size是16），输入图片尺寸为800*800。
训练时，每张图片的RoI数量为64/512（根据基础网络不同而改变）；测试时每张图片RoI数量为300/1000。
正反例比例为1:3。
anchors使用 5 scales 和 3 aspect ratios。
weight decay为0.0001。
学习率：0.02，到120k iteration后为除以10。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

TWSF CSDN认证博客专家 CSDN认证企业博客

码龄10年

50: 原创

10万+: 周排名

207万+: 总排名

25万+: 访问

: 等级

1240: 积分

24: 粉丝

79: 获赞

22: 评论

205: 收藏

私信

关注

热门文章

分类专栏

最新评论

vscode通过跳板机(堡垒机)连接remote服务器
Limche: 连接不上,不知道什么错误,能连接到跳板机但是跳板机连不上我的用户和ip
Matlab保存图片背景为透明
梦想展翅的菜鸟: 成功，太感谢啦
vscode通过跳板机(堡垒机)连接remote服务器
TWSF: 其实在跳板机增加个公钥就可以了, 至于还需要不需要密码, 其实不重要了
vscode通过跳板机(堡垒机)连接remote服务器
woxiwangxuehaocpp: 方法不错有个问题是：你怎么能改动别人跳板机呢？即使有权限也不能动，而且一般情况下是没有写权限的
vscode通过跳板机(堡垒机)连接remote服务器
空白格90: 我司的跳板机装的是Windows Server 2008，没有安装ssh。平时工作都是用win10的远程桌面连接到跳板机，再通过跳板机上安装的xshell连接到服务器（ubuntu20.04）。这样工作效率好低呀。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TWSF 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。