论文阅读笔记(一)

最新推荐文章于 2023-09-08 10:43:12 发布

hibernate2333

最新推荐文章于 2023-09-08 10:43:12 发布

阅读量823

点赞数

分类专栏：论文阅读笔记文章标签：卷积神经网络

本文链接：https://blog.csdn.net/qq_37923376/article/details/111078268

版权

论文阅读笔记专栏收录该内容

2 篇文章

订阅专栏

在频域压缩三维卷积神经网络

Abstract

本文研究了三维卷积神经网络的压缩和加速问题。为了降低深度神经网络的存储成本和计算复杂度，已经有许多算法通过在预先训练的网络中发现更多的冗余参数来解决这些问题。然而，大多数现有方法被设计用于处理由二维卷积滤波器组成的神经网络(即图像分类和检测)，并不能直接应用于三维滤波器(即时间序列数据)。在本文中，我们提出了一种新的方法，即通过一系列极少参数的学习到的最佳变换将它们转换到频域，来消除三维卷积滤波器的时间维度冗余。此外，这些变换被设定为正交变换，并且特征图的计算可以在频域中完成，以实现相当大的加速率。在基准3D CNN模型和数据集上的实验结果表明，所提出的频域压缩3D CNN(FDC3D)可以实现最先进的性能，例如在3D-ResNet-18上提高2倍的速率，也不会明显影响其精度。

1. Introduction

深度神经网络，特别是卷积神经网络(CNNs)已经在大量的计算机视觉任务中得到了很好的演示。有大量人工设计的卷积神经网络，例如AlexNet [17]，VGGNet[29]和ResNet[13]，在具有挑战性的ILSVRC 2012数据集上实现了令人印象深刻的分类精度。在其他任务中也有类似的成功，包括对象检测(如Faster RCNN[26]和SSD[20])和分割(如FCN[21]和Mask r-cnn[12])。在上述的这些计算机视觉任务中，每一幅图像通常被单独处理，并消耗数百MB的内存。三维卷积已经被开发用于处理基于视频的处理任务，如人类动作识别[16]。与二维卷积相比，在相同的时间条件下研究视频帧会消耗更多的资源。例如，3DResNet-50[11]需要354MB内存和超过22G的浮点数乘法，这比传统的只消耗103MB内存和4G 浮点运算的2d - ResNet-50高得多。

多年来，人们提出了相当多的方法来压缩和加速深度神经网络。例如，罗等人[22]基于来自下一层统计信息的剪枝过滤器。Chen等人[2]使用哈希函数并用单个参数表示同一哈希桶中的权重。Vanhouche等人[32]用8位整数值，代替了最初32位浮点值的模型，直接实现了深度神经网络的压缩和加速。Courbariaux和Bengio [4]探索了具有二进制权重和活化的神经网络。Restgari等人[25]进一步将二进制卷积结合到现代神经架构中，以实现更高的性能。王等[34]利用离散余弦变换实现频域压缩滤波器。

虽然上述方法已经为学习可移植的深度网络做出了巨大的努力，但是它们大多数是为2D神经网络设计的，并且对于处理3D卷积神经网络可能不是最佳的。与传统的卷积网络相比，3D CNNs被开发用于处理视频(例如动作识别[16])或一系列输入图像(例如患者的医学图像[3])，并且3D CNNs中的滤波器具有额外的维度。事实上，无论是视频还是医学图像，都可以看作是任意两幅相邻图像之间具有高度相关性的图像序列。这个额外维度中的卷积滤波器也应该具有很高的时间相似性，以便从输入数据中提取有用的信息，如图3所示。

在本文中，我们将过滤器转化为频域，以研究它们的冗余性，并产生压缩的三维卷积神经网络。学习一系列变换以将每个卷积层中的过滤层从空间域转换到频率域。在频域中这些过滤层的系数结构上是稀疏的，可以通过丢弃它们的细微分量来显著压缩。此外，在训练过程中，这些变换是正交的，以便我们可以简化空间域中的卷积运算，将其变为输入数据和具有极低计算复杂度过滤器的频率系数运算。此外，对于轻量级的神经网络，不太重要的冗余过滤器也将被抛弃。图1展示了提出的新方法的图示。在包括3D-ResNet-18和3D-U-NET在内的基准模型上的实验表明，在压缩和速率方面，所提出的方案优于的现有的学习压缩3D卷积神经网络。

本文结构如下所示。第2节研究了网络剪枝算法和三维卷积网络的相关工作。第3节提出了一种三维神经网络剪枝方法，将过滤器转换到频域。第5节给出了该方法在基准数据集和模型上的实验结果，第6节对论文进行了总结。

2. Related Works

这里我们首先研究了在不同任务下的三维神经网络，然后回顾了深度神经网络的剪枝方法。

2.1. 3D Convolutional Neural Networks

三维卷积神经网络被提出用于处理多帧或多图像输入，在视频和三维图像处理等应用中越来越受欢迎。开创性的工作[16]开发了三维卷积滤波器，从时间维度提取特征，从而捕获多帧运动信息。Tran等人[31]进一步提出了在大规模数据集上进行一般时空特征学习的C3D算法，其性能优于2D卷积神经网络，证明了三维卷积滤波器更适合于在视频中附加信息。Feichtenhofer等人[6]提出了一种由二维和三维卷积滤波器组成的2数据流卷积神经网络，用于提取空间和时间信息。Hara等人[10]将经典的2D-ResNet[13]推进到三维，取得了比层次较少的C3D网络更好的性能。此外，Hara等人[11]评估说，当前的视频数据集有足够的数据用于训练像ResNet-152这样的非常深的模型。除了视频分类之外，由于脑磁共振图像是立体的，因此三维神经网络在医学图像分割中得到了广泛的应用。3D U-Net [3]已经被引入来对三维医学图像执行端到端的划分。

尽管3D卷积神经网络在视频和三维图像处理任务中取得了令人满意的性能，但其巨大的计算成本阻碍了其在移动端和边缘设备上的部署。所以对三维卷积神经网络的压缩有着迫切的需求。

2.2. Network Pruning

网络剪枝旨在去除CNNs中的冗余权重，以加速和压缩原始网络。丹顿等人[5]通过利用奇异值分解(SVD)来分解全连通层中的权重。韩等人[8]引入剪枝、训练量化和霍夫曼编码，大大减少了神经网络的存储量。李等人[19]提议通过计算ℓ1-norm.值来去除对输出影响较小的滤波器。莫尔恰诺夫等人[24]根据泰勒展开法删减了权重，以逼近成本函数的变化。韩等人[9]将剪枝、量化和霍夫曼编码技术相结合，以实现更高的压缩比。胡等人[15]提出了一种数据驱动的方法来去除影响较小的冗余的过滤器。罗等人[22]基于下一层而不是当前层的重构误差对滤波器进行剪枝，将滤波器剪枝视为一个优化问题。何等人[14]提出了一种基于LASSO回归的新的通道剪枝方法来选择每一层中的重要通道。Gui等人[7]提出了一种新的对抗训练模型压缩(TMC)框架，以统一现有的压缩方法(修剪、因子分解、量化)。Wu等人[35]提出了一种新的频谱宽松的k-means正则化卷积滤波器，通过压缩权值共享来实现。杨等人[36]设计了乐高网，其中传统的过滤器被高效的乐高过滤器代替。

虽然上述剪枝方法在CNN压缩中可以获得令人满意的结果，但它们主要集中在修剪传统的2D CNN，而不是在视频任务中起重要作用的3D CNNs。张等人[37]将基于正则化的剪枝算法[33]应用于3D CNNs。然而，对于具有附加时间维度的3D卷积滤波器没有特殊的设计。本文提出了一种新的学习最优变换的方法，以消除频域中三维卷积滤波器的时间维数冗余。

3. Approach

在本节中，我们将首先介绍3D中枢神经系统的初步原理，然后研究在频域中压缩3D滤波器的可能性。然后，我们研究了一种学习一系列正交基的新方法，以有效地去除三维神经网络中的冗余参数。

3.1. 3D Convolution in the Frequency Domain

与传统网络不同，3D CNNs中输入数据的维数为4，即X ∈ R^H×W×c×T，其中H、W分别是输入数据的高度和宽度，C是通道号的个数，T表示额外的时间维数。同样，3D CNNs中的每个卷积滤波器都会有一个额外的维数，即F ∈ R^d×d×c×t×N，其中d×d是滤波器的大小，N是滤波器的个数，t和c分别是时间维数和通道数。3D卷积运算可以表示为
Y = F ∗ X + b, (1)
其中∗是卷积运算，Y∈R^H′×W′×N×T′是输出特征图，H′、W′、T′分别是Y的高度、宽度和时间维度，b是偏差项。

考虑到大多数现有的2D CNNs(如VGGNet-16 [29]和ResNet-50 [13])中存在大量冗余参数和过滤器，并且当前的3D CNNs主要是由一些2D模型(如3D-ResNet-18 [10]和3D-UNet [3])修改而来，我们还应该开发有效的算法来识别3D CNNs中的冗余。现有的剪枝方法已被证明在常规神经网络中是成功的。虽然这些方法可以直接在3D CNNs中进行调整，以实现相当大的加速和压缩比[37]，但时间维度(2D和3D CNNs之间的主要差异)被忽略了。事实上，视频中的相邻帧是高度相关的。提取多帧输入信息的3D卷积滤波器也具有类似的特性。与过滤器的高度和长度维度相比，时间维度具有更多的冗余，如图3所示。为此，我们的动机是将3D卷积滤波器转换到频域，其中转换后的表示比原始信号更稀疏，并且可以容易地压缩。

有许多变换用于分解输入信号并发现它们在频域中的冗余，例如离散傅里叶变换(DFT [27])和离散余弦变换(DCT [1])。由于傅里叶频域的系数是虚数，不适合压缩深度神经网络，所以我们利用具有实值的离散余弦变换来压缩3D卷积滤波器。如上所述，3D卷积滤波器的时间维度与空间维度相比具有更多的计算成本。因此，我们建议将这些滤波器变换到时间维度的频域中。具体来说，我们首先重构卷积运算w.r.t. Fcn.1，根据F中的第四维(即时间维)作为在这里插入图片描述
其中X ∈ R^ d^2×ct×H′W′T′根据滤波器大小和参数(例如填充和步幅)将χ转换成矩阵，F ∈ R d^ 2ct×N并且 Y∈R^{H′w′t×N分别是滤波器的矩阵和输出特征映射。Xi∈R}t×H′W′T′和fi∈ R^{t×N是通过矩阵分块实现的:X}⊤= [x1, . . . ,xd^2c]，F = [f1, . . . ,fd^2c]⊤.为简单起见，去掉了偏置项。

对于给定的t维向量f ∈ R^t×1，其在频域中的离散余弦转换表示c可以公式化为
在这里插入图片描述

其中 c m 是f在离散余弦转换频域中的第m个系数(m ∈ {1，，，t})。同样，离散余弦转换可以表示为矩阵乘法，即 c = Sf，其中S是离散余弦转换的t × t转置矩阵，可以根据上述函数计算。

由于S是一个正交矩阵，即S^⊤ x S = I，其中I是一个t × t单位矩阵，我们可以同时对滤波器矩阵和输入数据在时间维度上应用DCT及其逆变换来转换方程2到频域，在这里插入图片描述

即S带上三角是d^2ct × d^2ct的分块对角矩阵。

通过将滤波器变换到频域，我们可以很容易地利用变换后的滤波器的稀疏性来压缩网络。由于非结构化权重修剪[8]在没有对矩阵乘法(例如稀疏卷积)进行特殊实现的情况下不能直接加速深度神经网络，我们试图从结构化修剪的角度[22，14]解决3D CNN压缩任务，这直接减少了卷积滤波器矩阵中的列或行的数量。因此，我们丢弃具有微小ℓ2范数的3D卷积滤波器的冗余时间维度(即，在SF带上三角中的一些行)，并减少Fcn。4至
在这里插入图片描述
其中M ∈ t × t是一个掩模矩阵，用于丢弃频域中具有较小值的行，并且⊙是哈达玛积。具体而言，第i时间维度的重要值vi被公式化为 k(Pd2c j=1Sfj)i，∫k2
例如L2正则化项转换为滤波器的第i为时间维度，其中 (·)i,∗表示该矩阵的第i行。掩模矩阵M被推导M = [M1，…，Mt]^⊤，其中如果Vi是所有Vi(i ∈ {1，…t})的k最小则Mi= 0否则 Mi= 1 (0，1表示所有值都为0，1的t维向量)。k由剪枝率决定，这将在后面讨论。这样复杂度自然会降低。

注意，通过Fcn中的S将输入数据转换到频域的计算复杂度为O(H′W′T′d^2ct2)。如果我们也将离散余弦变换应用于X中的其他维数(信道维数和核尺寸维数)，计算复杂度将显著增加到O(H′W′T′d^4 c ^2 T ^2)。因此，我们只使用离散余弦变换来消除时间维度上的冗余。

3.2. Learning to Transform 3D Filters

提出了一种基于频域的三维卷积网络压缩方法Fcn. 5 通过使用DCT转换所有过滤器。然而，离散余弦变换是为基于某些先验的自然图像或视频设计的，不太适合于寻求三维卷积滤波器的组稀疏性。因此，我们建议学习最佳变换来消除3D卷积滤波器时间维度中的冗余。除了利用固定的字典或空间-频率域变换，我们使用于转换任意三维卷积层中的滤波器矩阵的变换是可学习的，即在这里插入图片描述
其中s∈R^t×t是期望的变换，用于将所有卷积滤波器转换到频域，I是用于使s正交以确保系数域中卷积相等的t × t单位矩阵，最后一项是用于消除SF中细微元素的常规ℓ1-norm，λ是平衡这两项的权衡超参数。

如上所述，我们引入掩模矩阵M来对三维卷积滤波器进行结构化剪枝。因此,ℓ2,1-norm更适合修剪的一行过滤器在频域,即丢弃在SF的冗余行。目标函数可以重新表述为: 在这里插入图片描述
其中||.||2，1是寻求群体稀疏性的ℓ2,1-norm。

除了时间维度上的冗余，我们还可以为3D卷积网络丢弃冗余信道。我们进一步应用了通道修剪的思想[14]:
在这里插入图片描述
当Fi和Xi指定滤波器和输入的每个通道时，引入β来寻找冗余输入通道，r是惩罚系数。可以通过最小化β的ℓ1-norm来选择重要的输入通道。然后，我们可以丢弃β较小的输入通道。

通过结合Fcn的目标。7和Fcn。8、同时消除时间维度冗余和滤波器输入通道的目标函数

算法1在频域压缩3D卷积神经网络。
输入:一个预先训练好的三维卷积神经网络N，有p个卷积层，L1。。。、Lp,对于每一层Li有信道和时间维度，剪枝率Pci和pti，不同对象的参数:λ和r。
1:for i = 1 to p do
2:提取Li层卷积滤波器形成F，并初始化变换Si和信道稀疏参数β；
3: repeat
4: 随机选择一批数据转发给N；
5: 利用N计算Li层的输入数据X；
6: 利用N计算Li层的特征图Y；
7: 用Si将F转换到频域；
8: 求解Fcn.9，同时更新变换Si和信道稀疏性参数β。
9: until 收敛
10: 根据β和pci丢弃微小的滤波器。
11: 根据pti和后续Fcn.5消除时间维度的冗余。
12: 保存Li层的最优变换Si。
13:end for
14:通过保留丢弃的成分进行微调N上三角；
Output:压缩的3D网络N上三角。

可以重新表述为在这里插入图片描述
Fcn. 9可以使用随机梯度下降轻易的优化。在我们找到Fcn.9的解之后，我们可以消除不必要的滤波器来压缩神经网络。将pc和pt作为信道和时间维度的剪枝率，pc具有最小β的滤波器将被丢弃，并且k = t × pt最小重要性值V的掩码矩阵M的行将被设置为0。算法1总结了所提出的频域紧致三维神经网络(FDC3D)的详细过程。

4. Analysis on Compression and Speed-up

原卷积(即Fcn. 2)的计算复杂度为: 在这里插入图片描述
在使用Fcn.2学习了最优变换S之后，频域中卷积的计算复杂度可以写成:
略高于Fcn.10，因为t ≪ N(例如在3D-ResNet-18的第二层中t = 3且N = 64)。

去除冗余参数后，时间维度t的核尺寸可以减小到t′，网络修剪后，输入通道c可以减小到c′，因此计算复杂度可以写成: 在这里插入图片描述
因此，压缩方法的加速可以写成:
对于参数，我们使用一个卷积层的参数进行简化分析。压缩前参数个数为N Cd^2t。压缩后，通过通道剪枝，时间维度可以降低到t’，输入通道可以降低到c’。我们还需要添加一个变换矩阵S，它有 t ^ 2个参数。因此，压缩率可以写成在这里插入图片描述
因为与卷积滤波器的参数相比，变换矩阵的参数相对较小。这个矩阵的参数可以忽略。这样，压缩率就可以近似为c′t′ /ct。

5. Experiments

在这一节中，我们将在UCF101和Brats18数据集上演示所提出的3D CNN压缩方法的有效性。为了更好地理解所提出的算法，还进行了大量的对比实验和可视化实验。

5.1. Experiments on UCF101

我们首先在UCF101数据集[30]上进行实验，该数据集由101个动作类别、13k多个剪辑和27小时的视频数据组成。我们将所提出的方法与泰勒剪枝(TP) [24]、过滤剪枝(FP) [19]和基于正则化的剪枝(RP) [37]进行了比较。我们使用3D-ResNet-18 [31]作为主干，它是从2D-ResNet-18通过将每个2D卷积滤波器转换为3D卷积滤波器而修改的。核增加的时间维度参数与其他两个空间维度相同。

我们使用随机梯度下降(SGD)来训练网络，初始学习率为0.005，动量为0.9，权重衰减为1e-5。验证损失饱和后，学习率除以10。网络训练300代。训练样本是从具有16个样本持续时间的视频中随机生成的，并被随机裁剪为112 × 112，以便按照[11]执行数据增强。执行均值减法，从每个颜色通道的样本中减去活动的均值。PC和pt分别设置为2倍加速的1/4倍和1/3倍，4倍加速的5/8倍和1/3倍。

表1 .在UCF101上加速3D-ResNet-18时增加的误差(基线:72.50%)。2x和4x表示加速比。在这里插入图片描述
表1记录了在UCF101数据集上不同方法的压缩结果。原始的3D-ResNet18模型实现了72.50%的准确性。泰勒剪枝和滤波剪枝已成功应用于2D-卷积神经网络。然而，与原始模型相比，这些方法的压缩模型性能下降(2倍加速时分别为5.72%和1.60%)，这表明传统的2D压缩算法并不完全适用于三维卷积滤波器。基于正则化的剪枝提出了一种基于三维正则化的神经网络方法，对于2倍和4倍加速度，该方法的误差分别只增加了0.41%和2.87%。然而，基于正则化的剪枝没有考虑滤波器之间在时间维度上的高度相关性，这是2D压缩和三维卷积滤波器之间的主要区别。通过对三维神经网络的时间维度引入最优变换，该方法可以达到2倍和4倍的速度提升，精度下降仅为0.10%和2.16%。该方法优于以往的剪枝方法，证明了该方法对于消除三维卷积滤波器时间维度冗余的有效性。

5.2. Ablation Study

在以上几节中，我们已经验证了所提出的学习频率压缩的三维神经网络的方法的有效性。该算法引入最优变换将滤波器转换到频域，而不是使用离散余弦变换。此外，为了消除信道维度和时间维度的冗余，我们引入了信道修剪[14]，并将其与Fcn.9中提出的最优变换相结合。因此，有必要研究所提出的最优变换的影响。

我们在UCF-101数据集上进行消融实验。我们使用3D-ResNet-18作为原始模型。表2 展示了在提议的FDC3D的频域中消除冗余的有效性。
在这里插入图片描述
实验细节与第5.1节相同。表2报告了在提议的FDC3D的频域中消除冗余的结果。如果我们不修剪时间维度(即只修剪信道)，那么对于2倍和4倍的加速比，压缩网络的准确率分别下降0.81%和3.58%。通过在滤波器上应用离散余弦变换，压缩后的网络在相同的加速比下可以获得更高的精度，证明了消除时间维度冗余的有效性。然而，离散余弦变换是为自然图像设计的，并不完全适合3D神经神经系统中的滤波器。通过学习每一层的最优变换，对于2倍和4倍的加速比，压缩后的网络精度仅下降0.10%和2.16%。结果表明了学习最优变换在三维神经网络时间维度压缩中的优越性。

5.3. Single Layer Pruning

在这里插入图片描述
图2使用不同方法修剪后的单层性能(无需微调)。最小ℓ2表示直接去除具有最小ℓ2-norm.的滤波器的时间维度。离散余弦变换表示在修剪时间维度之前对滤波器应用离散余弦变换，而OT表示在修剪之前应用提出的最佳变换。

在这一小节中，我们在单层中评估所提出的方法的性能，以实现对频域压缩的有效性的明确理解。我们使用3D-ResNet-18 [11]作为UCF-101数据集的原始模型。为了方便起见，我们仅使用所提出的方法使用Fcn.7来压缩时间维度。我们在时间维度上将我们的算法与两种传统的压缩策略进行了比较:1 .直接去除具有较小ℓ2-norm的滤波器的时间维度；2.使用离散余弦变换将滤波器转换到频域，而不是最佳变换。

我们在第一卷积层进行剪枝，其滤波器大小为7 × 7 × 7，时间维数为7。单层修剪的结果如图2所示。随着加速比的增加，误差增加。用最小ℓ2-norm直接去除时间维度将极大地影响3D CNNs的性能，这表明每个维度对于3D卷积滤波器都是重要的。因此，我们使用离散余弦变换将滤波器转换到频域，在相同的加速比下获得更好的性能。通过利用学习到的最优变换，该方法获得了最佳性能，证明了最优变换适用于寻求三维卷积滤波器的组稀疏性。

5.4. Pruning for Different Depths

该方法的有效性在3D-ResNet-18上得到了验证。为了进一步研究建议方案的一般性，我们在UCF 101数据集的3D-ResNet [11]的不同深度上评估了提出的FDC3D。我们在ResNet-34、ResNet-50和ResNet-101上使用了所提出的方法。训练的设置与第5.1节中的相同。

表3 .UCF101数据集上不同架构的误差增加。2x和4x表示加速比。
在这里插入图片描述
表3显示了3D-ResNet不同深度的压缩结果。随着模型变得越来越深，它的精度也越来越高。然而，它们的计算成本和存储量变得更大。因此，我们利用提出的方法来加速这些网络。该算法在各种架构下均可达到2倍的加速比，且精度没有明显下降。此外，对于更深的模型，增加的误差变得更小，这表明更大的模型具有更多的冗余，并且所提出的新方法可以有效地降低这些大型模型的计算成本。

5.5. Visualization of filters

为了消除3D卷积滤波器的冗余，我们将滤波器变换到频域。通过对特征图应用最优变换，可以在频域中直接计算卷积。虽然在计算3D卷积时，我们不需要将压缩的滤波器转换回空间域，但是我们在空间域中重建卷积滤波器以获得更直观的可视化。
在这里插入图片描述
图3。在UCF101数据集上过滤器的可视化。红色方框中的过滤器是保留的。

我们在图3的UCF101数据集的第一个卷积层中可视化3D-ResNet-18 [11]的过滤器。原滤波器尺寸为7 × 7 × 7，有3个输入通道和64个输出通道。为了方便起见，我们只可视化这些通道中的一个过滤器。图3 (a)显示了原始过滤器。由于相邻输入图像高度相关，提取三维图像的滤波器对于相邻时间维度也表现出相似的模式，这表明3D卷积神经网络中存在大量冗余。因此，传统的用较小值修剪权重的方法不适用于这种情况。因此，我们引入最优变换将滤波器转换到频域。图3 (b)显示了通过学习的最佳变换变换的频域中的滤波器。转换后的滤波器可以很容易地分为高频滤波器和低频滤波器。因此，我们可以保留图3 (b)中信息丰富的四个过滤器，用红线圈出。图3 ©显示了由保留的四个滤波器重构的滤波器。通过引入最优变换，我们可以几乎没有信息损失的压缩3D卷积滤波器。

5.6. 3D-UNet on Brats 2018

除了视频识别，3D CNNs的另一个重要应用是医学图像分割。脑肿瘤分割(Brats)数据集[23]为脑肿瘤分割提供了多模式磁共振成像(MRI)图像和专家标记的基础事实。该数据集的任务是通过使用手术前磁共振扫描中提供的数据来产生不同胶质瘤子区域的标记。子区域包含增强肿瘤、肿瘤核心和整个肿瘤。该数据集由285个样本组成，并被分为分别具有228个样本的训练集和具有57个样本的验证集。由于医学图像是三维的，传统的2D神经网络不能从多图像输入中充分的提取信息。因此，提出了3D U网[3]来解决这一医学图像分割问题。我们在Brats 2018数据集上使用剩余的3D U-Net [18]作为主干进行实验。

我们使用随机梯度下降(SGD)来训练网络，初始学习率为0.001，动量为0.9，权重衰减为1e-5。验证损失饱和后，学习率除以10。网络训练300回合。训练样本改造为160×192×128。批量大小设置为1。对于提议的方法，pc和pt设置为1/4和1/3。

表4 .是在Brats 2018数据集上加速3D U-Net时的dice系数(越高越好)。FC3D U-Net的加速比为2倍。在这里插入图片描述
表4指出了提议的方法在Brats 2018数据集上的压缩结果。我们使用骰子系数作为评价指标，这在医学分割任务中被广泛使用。骰子相似系数是计算两个样本之间空间重叠的相似性度量。骰子系数越低，表示性能越好。对于增强肿瘤(et)、全肿瘤(WT)和肿瘤核心(TC)的分割，原始3D U-Net模型分别达到0.7974、0.7971和0.6908的骰子评分。然后，我们将所提出的FDC3D应用于3D U-Net。实验结果表明，压缩后的网络在分割ET、WT和TC时分别获得了0.7832、0.7831和0.6816的骰子点数，表明该方法能够很好地完成三维图像分割任务。

为了进一步评估压缩网络与原始网络的性能，我们使用图4中的3D U-Net和频域压缩的3D U-Net来可视化分割结果。增强肿瘤、肿瘤核心和整个肿瘤分别标记为蓝色、绿色和黄色。图4 (a)显示的是地面真实情况，图4 (b)显示的是3D U-Net的分割结果。因此，3D U-Net可以成功地分割医学体MRL图像的不同部分。考虑到3D U-Net计算量大的特点，我们利用提出的FDC3D方法来消除冗余。图4 ©显示了压缩网络后的分割结果。该方法用更少的参数和更低的计算量获得了与原网络相似的结果。
在这里插入图片描述

6. Conclusions

随着互联网上多媒体的发展，视频变得无处不在，人们提出了三维卷积神经网络来处理多帧或多图像数据集。然而，三维卷积神经网络需要大量的计算资源，这阻碍了它在相机和手机等边缘设备中的使用。在这里，我们提出了一种有效的压缩方法来消除三维卷积滤波器在频域中的冗余，即FDC3D。利用所学习的最佳变换，将3D卷积滤波器转换到时间维度上具有结构稀疏性的频域中，其中可以容易地去除冗余参数。然后，也可以通过对特征图应用最优变换来在频域中计算卷积。信道维度上的冗余也被考虑以达到更高的速度提高。通过详细分析包括消融研究和可视化，以证明该算法的有效性。动作分类和医学图像分割实验表明，新提出的FDC3D方法比现有方法具有更高的性能。