HTC算法解读

‘Atlas’

已于 2022-05-17 17:00:48 修改

阅读量3.4k

点赞数 1

分类专栏：实例分割论文详解深度学习文章标签：深度学习实例分割 HTC

于 2020-03-29 15:57:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41994006/article/details/105177894

版权

论文详解同时被 3 个专栏收录

72 篇文章 15 订阅

订阅专栏

45 篇文章 3 订阅

订阅专栏

10 篇文章 2 订阅

订阅专栏

论文：Hybrid Task Cascade for Instance Segmentation
论文链接：https://arxiv.org/abs/1901.07518

代码链接：GitHub - open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark

创新点

本文主要有两个创新点：

1、设计了多任务多阶段的混合级连结构。

2、融入语义分割分支增强 spatial context。

网络结构

图1(a) 图中每一个 stage 和 Mask R-CNN 相似，都有一个 mask 分支和 box 分支。当前 stage 会接受 RPN 或者上一个 stage 回归过的框作为输入，然后预测新的框和 mask。

缺点：Cascade R-CNN 虽然强行在每一个 stage 里面塞下了两个分支，但是这两个分支之间在训练过程中没有任何交互，它们是并行执行的。

为解决1（a）中问题， Interleaved Execution，也即在每个 stage 里，先执行 box 分支，将回归过的框再交由 mask 分支来预测 mask，如上图1（b）所示。

缺点：不同 stage 之间的 mask 分支是没有任何直接的信息流的， Mi+1只和当前Bi通过 RoI Align 有关联而与Mi没有任何联系。

为解决1（b）中问题，作者在相邻的 stage 的 mask 分支之间增加一条连接，提供 mask 分支的信息流，让Mi+1能知道Mi的特征。如图1（c）所示。详细结构如图2所示，我们将Mi的特征经过一个 1x1 的卷积做 feature embedding，然后输入到Mi+1，这样Mi+1既能得到 backbone 的特征，也能得到上一个 stage 的特征。

为区分前景与背景，将语义分割引入到实例分割框架中，以获得更好的 spatial context。如图1（d）所示，S为语义分割头。详细设计如图3所示。FPN输出不同level的特征图resize到同一尺度并相加，经过一系列卷积，分别预测语义分割特征以及语义分割预测结果，语义分割特征通过RoIAlign及element-wise sum与box、mask特征进行融合。

损失函数

损失函数如公式7所示，

表示t阶段mask预测损失函数，使用BCE；Lseg表示语义分割分支损失函数，使用CE。

实验结果

参考：实例分割的进阶三级跳：从 Mask R-CNN 到 Hybrid Task Cascade - 知乎

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
HTC算法解读

论文：Hybrid Task Cascade for Instance Segmentation论文链接：https://arxiv.org/abs/1901.07518代码链接：https://github.com/open-mmlab/mmdetection创新点本文主要有两个创新点：1、设计了多任务多阶段的混合级连结构。2、融入语义分割分支增强 spatial cont...
复制链接

扫一扫

专栏目录

‘Atlas’ CSDN认证博客专家 CSDN认证企业博客

码龄6年

103: 原创

1829: 周排名

9301: 总排名

46万+: 访问

: 等级

3174: 积分

1万+: 粉丝

365: 获赞

174: 评论

1848: 收藏

私信

关注

分类专栏

论文详解 72篇
工程实践 6篇
数据集 1篇
NLP 1篇
3D重建 5篇
通用分割 6篇
实例分割 10篇
数据生成 23篇
跨模态 25篇
虚拟试衣 6篇
图像修复 1篇
工具 1篇
视频生成 7篇
文本识别 1篇
Transformer 8篇
风格迁移 1篇
自监督 1篇
姿态估计 3篇
联邦学习 2篇
姿态迁移 2篇
image translation 1篇
GNN 1篇
深度学习 45篇
机器学习 3篇
Python 6篇
anaconda 1篇
数据结构 1篇
安装 1篇
目标检测 10篇

最新评论

BLIP2-图像文本预训练论文解读
失落的艺术: 这个query embeding和输入图像经过ImageEncoder得到的向量是一个东西吗？还是另外又增加了一个随机向量Query embeding？
BLIP2-图像文本预训练论文解读
巷猫和斑马: 可学习的query embedding就是Q-Former中图像编码器的输入，因为在BLIP2中Image Encoder被冻结了，所以无法通过调整Image Encoder的参数使得学习到的图像特征向量与文本特征向量align，所以使用可学习的Query作为代替，它可以同时考虑图像和文本的特征，以此作为align的桥梁
BLIP2-图像文本预训练论文解读
小喜久: 想问一下，在Q-Former左侧的图像transformer中的可学习query embedding是什么呀
虚拟试衣-DiOr论文解读
m0_59079608: 您好，请问您部署好了吗，可以请教下怎么部署的吗？
BLIP使用教程
DRACO于: 你好，cannot import name BlipProcessor这种是什么原因，单独import transformer是没问题的，也尝试过更新upgrade，已是最新版本

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。