作者提出一个数据集组成为:
TROSD is available at http://www.tsinghua-ieit.com/trosd.
![](https://img-blog.csdnimg.cn/img_convert/aedc54be3813d68ad723cfa154222fac.png)
SUN-RGBD——具有37个类别的SUN-RGBD数据集,其中包含10 335个RGB-D图像和密集像素注释,从中选取673个用于训练,455个用于测试。SUN RGB-D数据集中有由透明或反射对象组成的图像,但它不为这些对象提供注释。在这种情况下,我们手动标注了这些对象的掩码,共1128个RGB-D图像,并将这些图像的大小调整为640 × 480。
我们从带有注释掩码的ClearGrasp数据集[6]中收集真实测试数据,并通过数据增强生成752张RGB-D图像。对于所有的深度图像,我们将深度值校准为相同的大小和刻度,用线性投影将它们投影到0到255的范围内。
TROSD数据集共包含11060张图片,类型组成为:
![](https://img-blog.csdnimg.cn/img_convert/33b160db6b154d5d1461a36a34e64f87.png)
网络架构
![](https://img-blog.csdnimg.cn/img_convert/799f7143ae76077efcd44f9b7079a5c9.png)
输入图像为RGB和深度图像,经过水平翻转缩放,size为640x480,分别送入双流resnet50骨干网络。设计了CFM模块,此级联多模态融合模块可以保持和增强透明和反射物体轮廓处的不连续细节。
图中红色CA block,一个通道注意力模块:
![](https://img-blog.csdnimg.cn/img_convert/42ccad9525c614054fc5b27875dd44d6.png)
BR block:
![](https://img-blog.csdnimg.cn/img_convert/411e6d1b05f755bfb321d59f4ce44381.png)
CMF模块:
![](https://img-blog.csdnimg.cn/img_convert/8625bb4a7d0cbacaac80704b0d73bab6.png)
其中的AdaLIN模块为Adaptive Layer-Instance Normalization (AdaLIN),自适应层实例归一化。
损失计算:
在每个上采样阶段应用交叉熵损失。共四个。