SOLO算法解读

‘Atlas’

已于 2022-07-24 19:52:37 修改

阅读量7.6k

点赞数 3

分类专栏：实例分割论文详解深度学习文章标签：计算机视觉实例分割 SOLO

于 2020-03-28 23:39:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41994006/article/details/105170426

版权

论文详解同时被 3 个专栏收录

72 篇文章 17 订阅

订阅专栏

45 篇文章 5 订阅

订阅专栏

10 篇文章 2 订阅

订阅专栏

论文：SOLO: Segmenting Objects by Locations
论文链接：https://arxiv.org/abs/1912.04488

代码链接：GitHub - WXinlong/SOLO: SOLO and SOLOv2 for instance segmentation, ECCV 2020 & NeurIPS 2020.

核心：预测每个像素所在的物体的实例类别。

作者指出实例类别就是量化后的物体中心位置和物体的尺寸，通过位置和形状进行区分实例，同一中心位置，同一尺寸物体为同一实例，否则为不同类别。

网络结构

网络结构如图2所示：

原图经过FCN网络生成feature map，分别送入网络两个分支，Semantic Category以及Instance Mask，Semantic Category分支feature map为S*S*C，用于预测各个位置目标的的类别，C为类别数。Instance Mask分支feature map为H*W*S^2，因为Instance Mask分支有S^2个位置，因此Instance Mask分支会生成S^2个H*W的feature map，用于目标的全图位置预测。

为检测不同尺度目标，引入FPN，每层输出各自接入以上两个分支。

Semantic Category

经过fpn得到的feature map为H*W经过上采样变为S*S，可通过三种方法：

1、直接双线性差值

2、adpative pooling

3、区域网格插值

经作者实验，三种方法差别不大。

正负样本设置：网格落到中心区域则为正样本，否则为负样本。给出真值mask的cx，cy，w，h；中心区域为(cx, cy, 0.2w, 0.2h)，设置为0.2时，每个真值mask平均生成3个正样本。

Instance Mask

Instance Mask生成H*W*S^2的feature map，Semantic Category每个位置都会对应于实例mask分支中每一个channel，用于生成目标的mask。

因为FCN在一定程度上具有空间不变性，因此在FCN基础上增加两个channel，增加坐标信息，将像素横纵坐标x，y，归一化到[-1,1]，如图3所示，将FCN生成特征图H*W*256增加2个 channel。

损失函数

Lcate采用Focal Loss（FL）

Lmask如公式2所示，

dmask作者尝试了BCE、FL以及Dice loss（DL），发现DL优于FL优于BCE。

FL比BCE效果好，主要是因为一个实例分割mask中大多数像素在背景上，FL可以削弱样本不均衡问题，通过降低分类效果好的样本的loss。DL将整张图看作一个目标，能够创建前景与背景之间平衡，且不需要超参数。如公式3、4所示。

实验结果

SOLO解耦

Instance Mask分支channel为S×S，这对计算量是比较大的要求，但其实图片中通常并不会有这么多的实例，因此有很多通道是多余的。对此作者将通道变为2S，如图7所示。

关注

3
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

‘Atlas’ CSDN认证博客专家 CSDN认证企业博客

码龄7年

103: 原创

2454: 周排名

2万+: 总排名

49万+: 访问

: 等级

3204: 积分

2万+: 粉丝

375: 获赞

175: 评论

1894: 收藏

私信

关注

分类专栏

论文详解 72篇
工程实践 6篇
数据集 1篇
NLP 1篇
3D重建 5篇
通用分割 6篇
实例分割 10篇
数据生成 23篇
跨模态 25篇
虚拟试衣 6篇
图像修复 1篇
工具 1篇
视频生成 7篇
文本识别 1篇
Transformer 8篇
风格迁移 1篇
自监督 1篇
姿态估计 3篇
联邦学习 2篇
姿态迁移 2篇
image translation 1篇
GNN 1篇
深度学习 45篇
机器学习 3篇
Python 6篇
anaconda 1篇
数据结构 1篇
安装 1篇
目标检测 10篇

最新评论

BLIP2-图像文本预训练论文解读
刚刚好�994: 您好，请问您现在实现了吗？
BLIP2-图像文本预训练论文解读
zuixiao1209: 想问一下博主，那第二生成式阶段，只有可学习query embedding作为图像transformer的输入和图像编码器的结果进行交互得到最后QFormer的输出吗？不存在文本输入到文本transformer里？然后QFormer的输出进入全连接层和LLM
BLIP2-图像文本预训练论文解读
失落的艺术: 这个query embeding和输入图像经过ImageEncoder得到的向量是一个东西吗？还是另外又增加了一个随机向量Query embeding？
BLIP2-图像文本预训练论文解读
巷猫和斑马: 可学习的query embedding就是Q-Former中图像编码器的输入，因为在BLIP2中Image Encoder被冻结了，所以无法通过调整Image Encoder的参数使得学习到的图像特征向量与文本特征向量align，所以使用可学习的Query作为代替，它可以同时考虑图像和文本的特征，以此作为align的桥梁
BLIP2-图像文本预训练论文解读
小喜久: 想问一下，在Q-Former左侧的图像transformer中的可学习query embedding是什么呀

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。