基于Transformer对透明物体进行分割

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

本研究提出了一个新的细粒度透明对象分割数据集,称为Trans10Kv2,扩展了Trans10K-v1,第一个大规模透明对象分割数据集。不像Trans10K-v1只有两个有限的类别,作者的新数据集有几个吸引人的好处。(1)它有11个细粒度的透明对象类别,通常发生在人类的家庭环境中,使它更适合于现实世界的应用。(2) Trans10K-v2对现有的高级分割方法带来了比以前版本更多的挑战。此外,提出了一种新的基于变压器的分割管道Trans2Seg。首先,Trans2Seg的变压器编码器相对于CNN的局部接受场提供了全局接受场,这显示了相对于纯CNN架构的优异优势。其次,作者将语义分割制定为一个字典查找问题,设计了一组可学习的原型作为Trans2Seg s变压器解码器的查询,每个原型学习整个数据集中一个类别的统计信息。作者对20多种最新的语义分割方法进行了评测,结果表明Trans2Seg算法的性能明显优于所有基于cnn的方法,表明了本文提出的算法在解决透明对象分割问题上的潜在能力。

开源代码:https://github.com/xieenze/Trans2Seg

本文贡献

  • 作者提出了最大的玻璃分割数据集(Trans10K-v2),包含11种不同场景和高分辨率的细粒度玻璃图像类别。所有的图片都用精细的遮罩和面向功能的分类精心标注。

  • 提出了一种基于变压器的透明物体分割网络,该网络采用变压器编解码结构。该方法提供了一个全局的接受域,在掩模预测中具有更强的动态性,具有很好的优越性。

  • 作者在Trans10K-v2上评估了20多种语义分割方法,作者的Trans2Seg显著优于这些方法。此外,作者还表明,这一任务在很大程度上尚未解决。因此需要更多的研究。

框架结构

作者的CNN-Transformer混合架构。首先,将输入图像输入到CNN,提取特征F。其次,对于变压器编码器,将特征和位置嵌入平滑后馈给Transformer进行自我注意,并从变压器编码器输出特征(Fe)。第三,针对Transforme解码器,作者专门定义了一组可学习类原型嵌入(Ecls)作为查询,Fe作为键,并利用Ecls和Fe计算注意图。每个类的原型嵌入对应一个最终预测的类别。作者还添加了一个小的conv头来融合来自CNN骨干的注意力地图和Res2特征。变压器解码器和小锥头详见图4。最后,通过对注意图进行像素级argmax,得到预测结果。例如,在这个图中,两个类别(瓶子和眼镜)的分割掩模对应着两个相同颜色的类原型。

Transformer解码器详细图。输入:可学习的类别原型作为查询,从Transformer编码器的特性作为键和值。输入被馈送到变压器解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。为了更好的理解,作者还提供了小锥头的伪代码。输入:可学习的类别原型作为查询,从变压器编码器的特性作为键和值。输入被馈送到Transformer解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。

实验结果

Trans2Seg与其他基于CNN的语义分割方法的视觉比较。输入:可学习的类别原型作为查询,从变压器编码器的特性作为键和值。输入被馈送到Transformer解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。为了更好的理解,作者还提供了小锥头的伪代码。Trans2Seg的整体感受场和注意机制,特别是在dash区域,明显优于其他组。放大以获得最佳视野。更多可视化结果请参考补充材料。

结论

在本文中,作者提出了一个新的细粒度透明对象分割数据集,包含11个常见类别,称为Trans10K-v2,其中数据是基于之前的Trans10K。输入:可学习的类别原型作为查询,从Transformer编码器的特性作为键和值。输入被馈送到Transformer解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。为了更好的理解,作者还提供了小锥头的伪代码。作者也讨论了提出的数据集的挑战性和实用性。此外,作者提出了一种基于变压器的管道,称为Trans2Seg,以解决这一具有挑战性的任务。在Trans2Seg中,Transformer编码器提供了全局接收域,这是透明对象分割的必要条件。在transformer解码器中,作者将分割建模为使用一组可学习查询的字典查找,其中每个查询代表一个类别。最后,作者评估了超过20种主流的语义分割方法,并表明作者的Trans2Seg明显优于这些基于CNN的分割方法。

在未来,作者有兴趣探索作者的Transformer编码器-解码器设计的一般分割任务,如城市景观和PASCAL VOC。作者也会投入更多的精力来解决透明对象的分割任务。

论文链接:https://arxiv.org/pdf/2101.08461.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目31讲

在「小白学视觉」公众号后台回复:Python视觉实战项目31讲即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

下载4:leetcode算法开源书

在「小白学视觉」公众号后台回复:leetcode即可下载。每题都 runtime beats 100% 的开源好书,你值得拥有!


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于transformer的遥感图像区域分割是一种利用transformer模型来进行遥感图像的语义分割的方法。在这种方法中,transformer被用来对图像中的不同区域进行建模和分类,以实现对图像中不同地物的准确分割。 在基于transformer的遥感图像区域分割方法中,通常会使用Swin Transformer模型。Swin Transformer模型通过建立patch token之间的关系来减少内存开销,并采用规则窗口和移位窗口的交替执行策略来增强全局建模能力。然而,这种方法在处理遥感图像中地物遮挡导致的边界模糊时可能存在一定的局限性。 为了进一步增强信息交换并编码更精确的空间信息,一些研究提出了跨W-Trans block和SW-Trans block的Spatial Information Module (SIM)。SIM通过在两个空间维度引入注意力,考虑像素之间的关系,从而使Transformer模型更适合用于遥感图像分割任务。 另外,为了改善对具有密集小尺度对象的遥感图像进行语义分割的效果,一些方法在Swin Transformer的patch token下采样中设计了特殊的下采样策略,如FCM。这种下采样策略可以避免丢失许多细节和结构信息,从而提高小尺度对象的分割效果。 综上所述,基于transformer的遥感图像区域分割方法利用transformer模型来对遥感图像中的区域进行建模和分类,并通过一些改进策略来提高分割效果。<span class="em">1</span><span class="em">2</span><span class="em">3</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值