【前沿热点视觉算法】-用于RGB-D显著对象检测等领域的三维卷积神经网络

最新推荐文章于 2024-07-12 18:02:43 发布

fighting的码农(zg)-GPT

最新推荐文章于 2024-07-12 18:02:43 发布

阅读量926

点赞数 20

文章标签：算法 cnn 人工智能 3D 计算机视觉 SOD 3D卷积

本文链接：https://blog.csdn.net/qq_43552933/article/details/136294657

版权

计算机视觉算法分享。问题或建议，请文章私信或者文章末尾扫码加微信留言。

RGB-deph（RGB-D）显著目标检测（SOD）近年来引起了越来越多的研究兴趣，出现了许多基于编解码器架构的深度学习方法。然而，现有的RGB-D SOD模型大多在单编码器或解码器阶段进行显式可控的跨模态特征融合，这很难保证足够的跨模态融合能力。为此，我们首次尝试通过三维卷积神经网络来解决RGB-D SOD问题。该模型名为RD3D，旨在实现编码器阶段预融合和解码器阶段深度融合，有效促进RGB和深度流的全面集成。具体来说，RD3D首先通过膨胀的2-D ResNet获得的3-D编码器对RGB和深度模式进行预融合，然后通过设计一个具有丰富背投影路径（RBPPs）的3-D解码器提供深度特征融合，以利用3-D卷积的广泛聚合能力。对于一个改进的模型RD3D+，我们建议将传统的三维卷积分解为连续的空间和时间卷积，同时丢弃不必要的零填充。这最终导致了2维卷积等价，促进了优化，减少了参数和计算成本。由于这种涉及编码器和解码器的渐进融合策略，可以利用两种种模式之间的有效和彻底的交互，并提高检测精度。作为个额外的提升，我们还引入了通道-模态注意及其在RBPP的每个路径后的变体，以关注重要的特征。在7个广泛使用的基准数据集上进行的广泛实验表明，在关键评估指标方面，RD3D和RD3D+比14种最先进的RGB-D SOD方法表现。

利用在编码器阶段的预融合的想法，提出通过一个三维卷积编码器来解决这个问题，可以有效地融合跨模态特征与-输出需要专用或复杂的模块。此外，我们提出对三维卷积进行分解，得到相关的二维卷积等价性，这有助于网络优化，减轻了的计算负担。
设计一个3d解码器，将rbpp与定制的通道模态注意CMA模块及其变体结合起来，以更好地利用3d卷积的广泛聚合能力，关注重要的特性。
基于上述编码器和解码器设计，我们实现了RGB-D SOD任务的第一个3-Dcnn模型，即RD3D和RD3D+。RD3D+比RD3D获得了实质性的改进，是更轻和更准确的。
通过对7个基准数据集的综合评估，表明RD3D和RD3D+显著地超过了14种最先进的（SOTA）方法。综合消融研究，包括使用骨干，有/不有分解，以及不同的注意变体，以验证RD3D和RD3D+的有效性和有效性。此外，我们应用RD3D和RD3D+对rgb-热SOD和视频SOD进行处理，以进一步展示其的适用性。

在这里插入图片描述

RD3D的故障可能来自于低质量的深度图。如图11所示，第二列中质量较差的深度图，不可避免地会给模型带来噪声导致了不准确的预测。最近的一些进展，已经设计了定制的模块来增强或纠正深度图，以缓解这样的问题。然而，在我们的RD3D模型中，深度信息通过隐式的3-D卷积与RGB模型融合，对低质量的深度地图没有任何特定的处理/控制。

在未来，我们希望RD3D能够鼓励更多基于3-Dcnn的RGB-D SOD设计。一种可能的方法是使用3-D/体积cnn处理基于rgb-D的3d数据，但潜在挑战是克服深度的糟糕质量，这可能导致糟糕的3d数据/布局恢复。我们相信这是一个未来需要研究的有趣问题。

尽管Sora目前尚未向公众开放，但据悉，它可能首先向OpenAI的付费用户提供，如ChatGPT Plus用户（升级 ChatGPT Plus 的教程）。Sora的推出将极大地简化视频创作流程，并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora，可关注官方网站获取最新信息。
如有其他疑问可以加以下微信二维码联系

在这里插入图片描述

关注