#今日论文推荐#解决CNN固有缺陷， CCNN凭借单一架构，实现多项SOTA

最新推荐文章于 2024-07-11 14:06:01 发布

wwwsxn

最新推荐文章于 2024-07-11 14:06:01 发布

阅读量165

点赞数

分类专栏：深度学习文章标签：深度学习人工智能

原文链接：https://www.aminer.cn/research_report/62d8fc047cb68b460ff04b76

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐#解决CNN固有缺陷， CCNN凭借单一架构，实现多项SOTA

本文提出了迈向通用 CNN 架构：CCNN，可以用于任意分辨率、长度和维度的数据。
在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大，但必须针对特定问题、数据类型、长度和分辨率进行定制，才能发挥其作用。我们不禁会问，可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗？
本文中，来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN，单个 CNN 就能够在多个数据集（例如 LRA）上实现 SOTA ！

1998 年 LeCun 等人提出卷积神经网络 (CNN)，这是一类广泛用于机器学习的深度学习模型。由于 CNN 具有高性能和高效率等特点，使其在跨序列、视觉和高维数据的多个应用程序中实现 SOTA 性能。然而，CNN（以及一般的神经网络）存在一个严重缺陷，这些架构必须针对特定应用进行定制，以便处理不同的数据长度、分辨率和维度。这反过来又导致大量特定于任务的 CNN 架构出现。
数据可以有许多不同的长度，例如图像可以是 32x32 或 1024x1024。标准 CNN 存在的问题是，它们的卷积核是局部的，这需要为每个长度定制一个精心选择的步长和池化层来捕获整个上下文自定义架构。此外，许多数据本质上是连续的，在不同的分辨率下具有相同的语义，例如图像可以在任意分辨率下捕获，并具有相同的语义内容，音频可以在 16kHz 或 44.1kHz 采样，但人耳听起来仍然是相同的。
然而，由于卷积核的离散性，传统的 CNN 不能跨分辨率使用。当考虑具有相同 CNN 的不同维度数据时，这两个问题会进一步加剧，例如序列（1D）、视觉（2D）和高维数据（3D、4D），因为不同的维度以不同的特征长度和分辨率运行，例如一秒音频的长度很容易达到 16000，这与基准数据集中的图像大小形成强烈对比。
在本文中，研究者提出了迈向通用 CNN 架构。其目标是构建一个单一的 CNN 架构，可以用于任意分辨率、长度和维度的数据。标准 CNN 需要特定于任务的架构，因为其卷积核的离散性将内核绑定到特定的数据分辨率，并且由于构建大型离散卷积核所需的大量参数，它们不适合对全局上下文进行建模。
因此，为了构建一个通用的 CNN 架构，关键是开发一个分辨率不可知的卷积层，该卷积层能够以参数有效的方式对远程依赖关系进行建模。该研究入选 ICML 2022 。

论文题目：Towards a General Purpose CNN for Long Range Dependencies in $N$D
链接：
undefined - AMiner
详细解读：https://www.aminer.cn/research_report/62d8fc047cb68b460ff04b76https://www.aminer.cn/research_report/62d8fc047cb68b460ff04b76 ICLR2022 ViDT | 检测超越YOLOS，实例分割超越SOLOv2，同时达到实时！！！ - AMiner
AMiner链接：https://www.aminer.cn/?f=cs