UniRepLKNet文章翻译

最新推荐文章于 2025-03-12 17:49:08 发布

天高海阔处，望尽天涯路

最新推荐文章于 2025-03-12 17:49:08 发布

阅读量1.9k

点赞数 28

文章标签：深度学习

本文链接：https://blog.csdn.net/thewordafter/article/details/135359025

版权

(注：以下翻译仅供学习交流使用，并尊重原作者的一切权益)

UniRepLKNet：一种用于音频、视频、点云、时间序列和图像识别的通用感知Large-Kernel ConvNet

摘要

大核卷积神经网络（ConvNets）最近受到了广泛的研究关注，但有两个尚未解决的关键问题需要进一步的研究。1)现有的大核卷积网的架构在很大程度上遵循了传统的卷积网或变压器的设计原则，而针对大核卷积网的架构设计仍未得到充分解决。2)由于变压器主导了多种模式，convnet是否在视觉之外的领域也具有很强的普遍感知能力仍有待研究。在本文中，我们从两个方面进行了贡献。1)我们提出了设计大核卷网的四种架构准则，其核心是利用大内核的基本特征，将它们与小内核区分开来——它们可以看到宽而不深入。根据这样的指导方针，我们提出的大核卷积神经在图像识别方面显示出了领先的性能。例如，我们的模型实现了ImageNet准确率，ADE20K mIoU为55.6%，COCO盒AP为56.4%，比一些最近提出的强大的竞争对手更好的性能和更高的速度。2)我们发现，大型内核是解锁ConvNets在它们最初并不熟练的领域中的特殊性能的关键。通过某些与模态相关的预处理方法，所提出的模型在时间序列预测和音频识别任务中，即使没有特定的模态定制的架构，也取得了最先进的性能。代码和所有的模型在https://github.com/AILabCVC/UniRepLKNet。

介绍

具有非常大核的卷积神经网络（ConvNets）的设计范式起源于RepLKNet[11]，当时ConvNet的状态受到视觉转换器（ViTs）的挑战[12，38，61，65]。受使用全局注意[12,54,65]或使用大窗口[38,49,64]的注意的ViTs的启发，RepLKNet建议使用非常大的conv内核。与使用小内核（如3×3）[19,22,25,48,53,58,77]的常见做法相比，即使有许多小内核层也无法获得大的有效接受场（ERF）[43]，RepLKNet实现了大的ERF和令人印象深刻的性能，特别是在目标检测和语义分割等任务上。

如今，具有非常大的内核的convnet开始流行起来，它主要关注于使大型内核成为更大的[36]，将它们应用于多个任务[6,42,75]的方法，等等。然而，我们注意到，现有的大内核ConvNet的大多数架构只是遵循其他模型，例如，RepLKNet [11]遵循Swin变压器[37]的架构，而SLaK [36]遵循ConvNeXt，这是一个强大的架构，具有中型（7×7）内核。大型内核卷积网的架构设计仍未得到充分的探索。

我们通过重新考虑使用小内核深度堆栈的传统模型的设计来探索大内核ConvNet架构。当我们向一个小内核卷积网络添加一个3×3转换时，我们期望它同时产生三个效果-- 1)使接受域更大，2)增加空间模式的抽象层次（例如，从角度和纹理到物体的形状），3)通过使模型更深入，引入更多可学习的参数和非线性，从而提高模型的一般表示能力。相比之下，我们认为大内核体系结构中的这三种效应应该被解耦，因为模型应该利用大内核的实质性强度——看到宽而不深入的能力。因为增加内核大小比叠加能够更有效的扩大ERF [43]，足够的ERF可以建立于少量的大内核层，这样计算预算可以节省从而使增加其它有效结构来增加空间模式的抽象层次或增加深度。例如，当目标是从低层次中提取高级的局部空间模式时，3×3conv层可能是比大核conv层更适合的选择。原因是后者需要更多的计算，并可能导致模式不再局限于较小的局部区域，这在特定的场景中可能是不可取的。

具体地说，我们提出了四种大内核convnet的架构指南- 1)使用高效的结构，如SE块[24]来增加深度，2)使用一个提出的扩展再参数块来重新参数化大内核转换层，以提高性能而不需要推理成本，3)由下游任务来决定内核的大小，通常只在中层和高级层中使用大型内核，4)在添加3×3的conv而不是更大的内核的同时扩大模型的深度。以上述准则建立ConvNet（图1）实现上述三个效果，因为它使用少量的大内核保证大ERF，小内核提取更复杂的空间模式更有效，和多个轻量级块进一步增加深度，提高表征能力。

我们的架构实现领先性能ImageNet分类[9]，ADE20K语义分割[80]，和椰子对象检测[34]，优于现有的大型内核如RepLKNet [11]，小[36]，和最近强大的架构包括ConvNeXt V2 [70]，快速的[63]，双胞胎V2 [39]和DeiT III [62]的准确性和效率。

RepLKNet [11]的提出部分是为了“保护网络”，因为vit主导了曾经由网络网络控制的多个图像识别任务。然而，在这项工作中，我们不仅寻求通过超越ViTs的性能来恢复图像识别任务中的领先地位，而且在传统上不是占主导地位的领域表现出了重要的贡献。具体来说，在音频、视频、点云和时间序列任务上，我们以惊人的通用和简单的解决方案实现了令人印象深刻的性能。我们使用特定于模态的预处理方法将所有数据转换为3D嵌入映射，就像我们对图像所做的那样，并使用相同的架构作为主干来处理这些3D嵌入映射。我们的模型通过统一的架构显示了跨多种模式的普遍感知能力，因此它被命名为UniRepLKNet。

令人印象深刻的是，UniRepLKNet即使在不被认为是ConvNet的大本营的模式上(如声音和时间相关数据)，也取得了显著的结果。例如，在一个预测全球温度和风速的大规模时间序列预测任务中，UniRepLKNet，这是一个最初为图像识别而设计的多面手模型，甚至优于为该任务定制的最先进的变压器模型。这样的结果不仅标志着ConvNet在其原始领域的“回归”，还展示了大型内核ConvNet“征服”新领域的潜力，扩大了其在各种任务中的适用性和多功能性。

(

图1：UniRepLKNet的体系结构设计。LarK块包含由本文提出的膨胀再参数(Dilated Reparam Block)块、SE块[24]、FFN和批归一化（BN）[28]层组成。SmaK块和LarK块之间的唯一区别是，前者使用深度3×3conv层来取代后者的膨胀参数(Dilated Reparam Block)块。stages通过2步2密集3×3conv层实现的降采样块连接。我们可以在不同的阶段灵活地安排块，我们提供的实例的细节如表5所示。

)

相关工作

早期大内核CNN。经典的转换网络，如AlexNet [32]和灵感[55–57]在低层使用7×7或11×11，但在VGG-Net [53]之后，大型内核变得不流行。全局卷积网络（GCN）[45]使用非常大的conv层（1×K和K×1）进行语义分割。局部关系网络（LR-Net）[23]采用了一个空间聚合算子（LRLayer）来代替标准的conv层，这可以看作是一个动态卷积。LR-Net受益于内核大小为7×7，但降分数于9×9。如果内核大小和特征图一样大，其前1位的精度从75.7%显著降低到68.4%。

大内核的探索。核的概念可以推广到空间卷积之外。Swin变压器[38]使用的窗口大小从7到12，这可以看作是一个动态内核。Han等人[18]用静态或动态7×7conv取代了Swin的注意层，仍然保持可比的结果。MetaFormer[76]认为大核池化层是自我注意的替代方法。另一个具有代表性的工作是全局滤波网络（GFNet）[50]，它优化了傅里叶域的空间连接权值。它等价于空间域上的圆形全局卷积。

现代大内核CNN。RepLKNet首先提出，简单地扩大现有ConvNets的内核大小就会导致改进，特别是在下游任务[11]上。它在使用大型内核的同时提出了一些指导方针，这些指导方针侧重于微观结构设计（例如，在大型内核旁边使用快捷方式）和应用（应该在下游任务上评估大内核网络）。就架构而言，RepLKNet只是为了简单而遵循了Swin变压器。在过去的两年里，大核网络得到了深入的研究。一些工作成功地进一步扩大了内核大小[36]，将其推广到3D场景[6]和许多下游任务，如图像去模糊[42]和超分辨率[75]。然而，我们注意到，具有非常大内核的convnet的架构设计仍未得到充分探索。例如，SLaK [36]遵循了ConvNeXt开发的架构，这是一个功能强大的中型（7×7）内核架构。

UniRepLKNet的结构设计

3.1. Dilated Reparam Block(膨胀参数块)

据报道，大核转换应该与并行的小核转换一起使用，因为后者有助于在训练[11]期间捕获小规模模式。它们的输出在两个各自的批处理标准化（BN）[28]层之后相加。经过训练，利用结构再参数化[10]方法，将BN层合并到conv层中，使小核层等价地合并到大核层中进行推理。在这项工作中，我们注意到，除了小尺度模式外，增强大内核捕获稀疏模式的能力（即，特征地图上的一个像素可能比它的相邻像素与一些遥远的像素更相关）可能会产生更高质量的特征。捕获这种模式的需要与扩张卷积的机制完全匹配——从滑动窗口的角度来看，扩张率为r的扩张转换层扫描输入通道，以捕获空间模式，其中每个感兴趣的像素远离其邻居r−1像素。因此，我们使用平行于大内核的扩展conv层，并相加它们的输出。

为了消除额外扩张conv层的推理代价，我们提出将整个块等转换为单个非扩张conv层进行推理。由于忽略输入的像素相当于在conv核中插入额外的零项，因此具有小核的扩张conv层可以等价地转换为具有稀疏大核的非扩张（即r = 1）层。设k为扩张层的核大小，通过插入零项，相应的非扩张层的核大小将为（k−1）r + 1，为了简洁起见，这被称为等价的核大小。我们进一步注意到这种从从前核W∈Rk×k到后一种W‘∈R（（k−1）r+1）×（（k−1）r+1）可以通过一个步幅为r的转置卷积和一个单位核I∈R1×1来优雅地实现，它是标量1，但被视为一个核张量。使用pytorch风格的伪代码：(公式1)

这种等价性很容易验证——给定任意W∈Rk×k和任意输入通道，与W的卷积和膨胀率r总是产生与与W‘的非膨胀卷积相同的结果。

基于这些等价变换，我们提出了一个扩展的再参数块Dilated Reparam Block，它利用一个非扩展的小核层和多个扩展的小核层来增强一个非扩展的大核转换层。其超参数包括大核K的大小k、平行卷积层的大小k和膨胀速率r。如图所示的四种平行层的情况（图2）用K=9、r=（1、2、3、4）、k=（5、3、3、3）表示。对于较大的K，我们可以使用更大的膨胀层，核尺寸或膨胀速率。平行分支的核尺寸和膨胀速率是灵活的，唯一的约束是（k−1）r + 1≤K。例如，对于k=13（我们实验中的默认设置），我们使用五层，其中包含k=（5、7、3、3、3）、r=（1、2、3、4、5），因此等效的内核大小将分别为（5、13、7、9、11）。为了将一个Dilated Reparam Block转换为一个大内核转换层进行推理，我们首先将每个BN合并到前一个转换层中，方法为用函数1携带扩张率r > 1转换每个层，并用适当的零填充将所有生成的内核相加。例如，图2中包含k=3，r=3的层被转换为一个稀疏的7×7核，并添加到9×9核中，每边都有一个像素的零桨。

3.2.大型内核的建筑指南

香草建筑。我们首先构建了要进行实验的香草架构。作为一种常见的做法，模型的主体被分为四个阶段，由下采样块连接起来。具体来说，第一个降采样块使用两个步2 3×3转换层转换原始输入C通道特征地图，其中C是一个架构超参数和其他三个降采样块每个使用一个步2 3×3转换层执行2×通道扩张，四个阶段的通道的数量分别是C、2C、4C和8C。一个阶段由普通设计类似于ConvNeXt的块组成，即深度（DW）转换层和具有GRN单元[70]的前馈网络（FFN），但我们使用BN而不是NayerNorm[1]作为BN可以等价地合并到转换层中以消除其推理成本。我们在FFN之后使用另一个BN，它也可以等价地合并到前一层（即FFN中的第二个线性层）中。四个阶段中这些块的数量分别用N（N1、N2、N3、N4）表示。在ConvNeXt-T之后，香草体系结构使用了C=96和N=（3,3,9,3）。默认情况下，最后三个阶段使用13×13膨胀再参数块Dilated Reparam Block作为DW层，即K=13、k=（5、7、3、3、3）和r=（1、2、3、4、5）；第一阶段使用DW3×3conv作为DW层。

(

图2.Dilated Reparam Block使用扩展的小核转换层来增强非扩张的大核层。这种膨胀层等价于具有较大稀疏核的非膨胀conv层，从参数的角度来看，使得整个块可以等价地转换为单个大核conv。这个例子显示了K=9，我们可以对更大的K使用更多的膨胀层。

)

实验性的设置和指标。在文献[11]中已经强调，大核卷积网应该在下游任务上进行评估，因为它们的全部潜力可能不能仅通过ImageNet的精度来准确地反映出来。因此，除了100历元训练后的ImageNet-1K精度外，我们将UPerNet [74]训练模型转移到ADE20K，以检验其语义分割的性能，并在160k迭代标准微调过程[7]后报告单尺度mIoU。除了参数和FLOPs，我们还测试了A100 GPU上的实际吞吐量，批量大小为128，输入分辨率为224×224，以每秒图像（img/s）测量。详细配置见附录.

关于砌块设计的建筑指南1：使用同时执行信道间通信和空间聚合的高效结构来增加深度。我们首先寻求插入一些结构来普遍提高模型的表征能力，这需要包含非线性和有效的可训练转换。我们很自然地尝试了一个瓶颈，即1×1conv将通道减少到1/4，DW3×3conv和另外1×1conv将通道重新扩展回来（图3）。我们使用conv层后的BN和ReLU作为一种常见的做法。表1显示，性能在可接受的成本下有所提高（+为1.2mIoU，降低了12%）。当我们删除DW3×3conv时，性能会下降×1，只剩下两个1conv层，或者用两个DW3×3层替换瓶颈结构，这表明这种结构需要空间聚合转换和通道混合。基于此，考虑到SE块[24]以一种更有效的方式优雅地实现了这两种转换（即，全局平均池化和池化向量的非线性映射）我们也尝试了1/4信道缩减，并观察到更好的性能和更高的吞吐量。因此，我们在接下来的探索中使用SE块作为我们的块设计的子结构。

(

图3.用来增加深度的额外结构的选项。

表1.具有不同有效的额外结构的模型，以增加深度。我们报告了ImageNet的精度（Acc）、ADE20K mIoU和实际吞吐量（Img/s）。

)

关于重新参数化的架构指南2：使用扩展的小内核来重新参数化一个大的内核。为了与Dilated Reparam Block进行公平的比较，我们尝试了两个具有相同数量的并行分支的变体，其中a)相同的内核大小或B)相同的等效内核大小。对于我们的默认设置K=13，r=（1、2、3、4、5），K=（5、7、3、3、3），五个分支的内核大小将分别为k=（5、7、3、3、3）或（5、13、7、9、11）的两个变体。所有的模型最终都具有相同的推理结构，但训练结构不同。表2显示了变体的较低性能，这表明大内核得益于并行扩张的conv层捕获稀疏模式的能力，而不仅仅是额外的小内核（变体A）或不同接受域的组合（变体B）。我们在下面的探索中使用Dilated Reparam Block。

(

表2.13×13转换层上不同结构重参数化的模型。

表3。在用S1 - S4表示的四个阶段中，具有不同内核大小的模型。括号内的数字是用UPerNet只取S4的输出得到的。

)

关于内核大小的架构指南3：根据下游任务决定内核大小，通常在中高层层中使用大型内核。如上所述，基线模型在第一阶段使用3×3 conv，在最后三个阶段使用13×13 conv。表3显示，后3个阶段用3×3替换大核或将K从13改为11会降低模型，特别是在ADE20K mIoU中，这突出了大核的重要性。有趣的是，在阶段1中使用13×13或将K从13扩大到15对ImageNet的准确性几乎没有影响，但降低了ADE20K的mIoU。

备注。我们认为，这种现象并不意味着较大的内核会导致较低的特征质量。这是由于UPerNet的结构先验，它采用了由主干的低层次层提取的特征，并假设它们应该只编码局部信息，以便将它们与从主干的最后一层提取的高级特征相结合，从而得到更好的分割。由于较大的内核处于较低的阶段，因此低级特性不再局限于小的本地区域，因此UPerNet从将它们与高级特性结合中获益较少。我们通过让UPerNet仅使用高级特性（即阶段4的输出）来单独评估最终特性的质量来验证这一解释。在此设置下，K=15提供了最好的mIoU（42.7），在阶段1中具有大内核的模型表现于基线（42.4），K=11表现最差（41.9）。这样的观察证实，大内核，即使使用不适当，不损害ConvNet的特性质量而仅仅是让低级特性不利于某些下游模型需要本地低级的特性，建议我们应该决定内核大小根据特定的下游任务和框架。在我们的特定用例中（即，具有通用下游框架的代表性图像识别任务），默认情况下，我们在中间和高级阶段使用了13×13内核。

(表4.阶段3中LarK和SmaK块的不同数量。)

关于扩展规则的架构指南4：在扩展深度时，添加的块应该使用小的内核。现有的大内核ConvNet的缩放规则遵循传统的ConvNet，即堆叠更多的大内核以建立更深的模型，但我们认为，大内核Conv Net可能不会从更多的大核中受益。在这组实验中（表4），我们按照ConvNeXt-S [40]，将N3从9扩展到27。考虑到9个13×13块可能已经建立了足够的接受域，我们检查了添加的块是否也应该使用大的内核。具体地说，我们称呼有Dilated Reparam Block的块为Large Kernel Block (LarK Block)，而使用DW 3×3卷积的块为Small Kernel Block (SmaK Block)，因此，浅层模型在第一阶段有3个SmaK块，在最后三个阶段有3,9,3个LarK块。在扩大阶段3的深度的同时，我们尝试了以下选项。A)所有的27个块都是LarK块。B)我们将SK与LarK块交织，使阶段3有14个LarK块和13个SmaK块。C)我们在一个LarK块之后放置了两个SmaK块，这样生成的模型将具有与之前相同的9个LarK块，但只有18个额外的SmaK块。D)我们在SmaK块中删除了DW3×3层。表4显示，扩大深度会带来显著的改进，这是预期的，9个LarK块就足够了。虽然27个LarK块在ADE20K mIoU中表现得稍好，但推理速度明显减慢。此外，模型没有3×3转换SmaK块显示显著降低mIoU只有吞吐量的吞吐量，表明这样小内核SmaK块是有用于扩大大内核的深度增加空间模式的抽象层次结构，尽管他们可能不会有效地扩大ERF [11,43]。这一观察结果支持了我们在扩大ERF和提取更复杂的空间模式方面解耦conv层的影响的动机，如在Sec中所讨论的。

3.3.建筑技术规范

根据我们提出的指导方针，我们实例化了一系列的模型（表5）。为了与ConvNeXt V2 [70]进行公平的比较，UniRepLKNet-A/F/P/N遵循其配置。我们扩大深度来构建UniRepLKNet-T/S，并扩大宽度来构建UniRepLKNet-S/B/L/XL。

3.4.在图像之外推广UniRepLKNet

(

表5.UniRepLKNet实例的架构超参数，包括第一阶段阶段N1、N2、N3、N4和通道C的块数。阶段1使用SmaK块，而阶段2和阶段4只使用LarK块。对于阶段3，例如，“9+18”意味着9个LarK块和18个SmaK块。

)

为了利用UniRepLKNet的普遍感知能力，我们将不同模态的数据预处理成B×C‘×H×W嵌入图，其中B为批处理大小，C’由模态决定，并配置从UniRepLKNet的第一层到C‘的输入通道。为了简单起见，模型的其他部分与最初为图像设计的UniRepLKNet相同，没有任何特定于模态的定制。通过这样做，我们直接应用一个通常用于图像任务的ConvNet来处理其他模式的数据。换句话说，用于图像任务的UniRepLKNet可以看作是一个通用的具有C‘=3的UniRepLKNet，并且没有这样的预处理。我们将介绍如何将数据转换为这样的嵌入映射，如下所示。

时间序列。.设L和D是一个时间序列序列xT∈RB×L×D的长度和维数，我们在[71][71]中采用嵌入层将其分割成n个节点，然后将其投影到一个潜在空间RBn×L×D′(D‘和n是嵌入层的可配置的超参数)。然后，我们就可以简单地将其重塑为一个单通道的嵌入映射。(公式2)

音频。设T和F是时间帧和频率箱的个数，我们使用xA∈RB×T×F来表示音频数据。一个样本被看作是一个1×T×F嵌入图，类似于一个单通道图像，所以C‘=1，H=T，W=F。(公式3)

点云。假设一个样本由P个点组成，每个点都由X/Y/Z坐标表示，我们使用一系列的conv层来生成三视图投影[78]。我们将生成的投影的分辨率配置为224，从而使H=W=224，C‘=3。

(公式4)

视频我们将一个视频表示为NF帧，每一帧是一个3×h×w图像。我们通过将框架尺寸合并到高度和宽度尺寸来重塑它，这样我们就可以获得了一个表示，可以看作是通过布局（即连接）NF创建的单个图像。例如，在我们的实验中，我们有NF =16和h=w=224，所以H=W=896。通常情况下，(公式5)

用于图像识别的UniRepLKNet

ImageNet分类。在ConvNeXt [40]之后，我们使用广泛采用的300历元收据在ImageNet-1K上训练UniRepLKNet-A/F/P/N/T/S；我们在ImageNet-22K上对UniRepLKNet-S/B/L/XL进行预训练，并使用ImageNet-1K进行30个时代的微调（详见附录）。由于我们的目标是开发以高实际速度运行的模型，所以我们使用128的批处理大小来评估在相同的A100 GPU上的实际吞吐量。表6显示了ImageNet-1K验证集的前1个精度，其中结果按吞吐量排序。为了更好的可读性，我们将结果分成七个部分。1) UniRepLKNet-A/F在精度上比ConvNeXt-V2-A/F高出0.8/0.6，运行速度分别提高了19%/17%。2) UniRepLKNet-P/N的性能明显优于FastViT-T12/S12和ConvNeXt V2-P/N。3) UniRepLKNet-T的表现优于多个小型竞争对手。4) UniRepLKNet-S在速度和精度上都优于一系列小级别甚至底层的模型，其运行速度几乎与内部图像-t一样快。5)使用ImageNet-22K预训练，UniRepLKNet-S甚至接近RepLKNet-31L的精度，并且运行速度比后者快三倍。UniRepLKNet-B的性能明显优于CoAtNet- 2和DeiT III-B。UniRepLKNet-L在准确性和吞吐量方面都优于内部Image-L。6)在XL级别上，UniRepLKNet-XL在准确性和吞吐量方面都优于它，运行速度超过CoAtNet-3的2×，运行速度超过DeiT III-L的3×。

COCO目标检测和实例分割。我们将预训练的UniRepLKNets作为级联掩模R-CNN [3,20]的骨干，采用MMTocot[5]的标准3x（36时代）训练配置。表7显示了UniRepLKNet优于Swin、ConvNeXt、RepLKNet和SLaK，它们分别是vit、现代中核卷积网和现有内核的代表，并显示了与内部图像[67]相当的性能，这是一个最新的强大的可变形卷积架构。

ADE20K语义分割。我们使用预训练的UniRepLKNets作为ADE20K [80]上UPerNet [74]的骨干，并采用标准的160k迭代训练收据。表8报告了验证集上的mIoU。令人印象深刻的是，UniRepLKNet的性能优于内部图像公司和其他机型。

(

表6. ImageNet的分类。吞吐量测试与A100 GPU和批量大小为128。“T/C”表示变压器/网络。“‡”表示ImageNet-22K [9]预训练。

表7.在COCO验证集上的对象检测。用1280×800输入来测量流量。"‡ " ImageNet-22K pretraining.

表8.ADE20K验证集上的语义分割。根据作物大小，用512×2048或640×2560输入来测量流量。“SS”和“MS”分别表示单尺度和多尺度测试。“‡”表示ImageNet-22K [9]预训练。

)

对其他模式的普遍感知

时间序列。根据相关预测器[71]，我们使用从国家环境信息中心（NCEI）收集的数据集，对全球温度和风速预测挑战4进行了实验。这个大规模的数据集包含了2019年至2021年期间来自3850个不同地理尺度和密度的站点的每小时平均风速和温度数据。为了与Corrformer（这是以前最先进的方法）进行公平的比较，我们使用了它的嵌入层（如第3.4节所述）和解码器，并仅用UniRepLKNet-S替换了它的编码器转换器。我们还比较了UniRepLKNet-S与包括统计和数值方法。我们从表9中得出以下观察结果。1）在预测精度方面，UniRepLKNet提供了最先进的新性能，在预测全球温度和风速时，MSE和MAE的误差分别最低，分别为7.602、1.832、3.865和1.301。2)关于效率问题，UniRepLKNet比现有的深度学习方法使用更少的参数。特别值得注意的是，UniRepLKNet是一种通才模型，它在精度和效率上都优于时间序列专家，如金字塔[35]和金字塔[71]。UniRepLKNet的显著优势为时间序列预测中的架构讨论开辟了新的途径，为变压器模型提供了一个可行的替代方案。

(

表9.全球温度和风速预测挑战下的时间序列预测性能。UniRepLKNet在均方误差（MSE）和均方绝对误差（MAE）方面提供了一种新的最先进的性能。GFS (https://www.ncei.noaa.gov/)代表全球预测系统。

表10.在语音命令V2数据集上的音频识别。

表11.动力学上的视频识别精度-400。

表12.ModelNet-40上的点云分析。

表13.使用其他内核大小较小的UniRepLKNet的通用感知性能。

)

音频。我们使用语音命令V2 [69]，它包含35个常见语音命令的105,829个1秒的录音。表10显示了UniRepLKNet无缝地适应了音频模式，并提供了令人印象深刻的准确率98.5%，即使没有预训练。与AST [15]和Audio-MAE [26]等基于转换器的方法相比，UniRepLKNet以参数更少的方式脱颖而出。与以前为音频设计的ConvNet相比，UniRepLKNet在不需要任何结构定制化的情况下实现了更好的性能，突出了ConvNet在音频识别领域未开发的潜力。

视频我们在动力学-400[29]上进行了实验，其中包含240k训练视频和20k验证视频，跨越400类动作识别。尽管其54.8%的最高精度多少落后于最先进的架构，如MViT [33]和TimeSFrour[2]，我们想注意的是，领先的模型都是专门的视频和预训练额外的数据，而UniRepLKNet是一个从头训练的通才模型。与ImageBind[14]和Meta Transformer[78]等最新的广义方法相比，UniRepLKNet在准确性和无需预训练方面都表现出优势。这一观察结果突出了在当前通用架构下在视频领域实现高可转移性的挑战，这可能需要比我们极其简单的方法（将帧布局成单个图像）更好的预处理方案。

点云。我们通过评估UniRepLKNet学习三维模式的熟练程度来探索它的多功能性，超越了传统的图像和音频的二维信号。我们使用ModelNet-40 [73]三维形状分类任务，使用来自40个类的9,843/2,468个CAD模型的训练/验证样本。表12显示，UniRepLKNet实现了总体精度（OA）为93.2%，平均精度（mAcc）为90.3%，超过了现有的基于convnet的专门用于d点云的模型。这些结果突出了在这一领域进一步发展convnet网络的潜力。

内核大小对性能的影响。为了研究不同内核大小对性能的影响，我们用更小的内核替换了其他ConvNet或UniRepLKNet的上述模型的主干。我们采用了相同的特定模式的预处理方法和训练配置来进行公平的比较。我们将ResNet-101作为一个具有代表性的小核卷积量Net，因为它与UniRepLKNet-S具有类似的参数。表13显示，UniRepLKNet在所有任务中的表现始终明显优于其他模型，这表明大内核设计对于普遍感知至关重要，至少在我们的特定情况下是这样。

结论

我们为大核ConvNet和UniRepLKNet提出了四种架构指南，它不仅在图像识别方面表现出领先的性能，而且即使在音频和时间序列数据等模式上也取得了显著的效果，在这些模式上优于多个专业模型。这些结果不仅标志着ConvNet在其原始领域的“回归”，而且也展示了大内核ConvNet“征服”新领域的潜力，突出了它们在不同模式和任务中的适应性和广泛的实用性。