Latent-Space Scalability For Mutil-Task Collaborative Intellingence

进击的小老虎丶

已于 2024-03-11 02:21:27 修改

阅读量127

点赞数

分类专栏：论文翻译文章标签：深度学习

于 2022-08-13 21:16:41 首次发布

原文链接：https://ieeexplore.ieee.org/abstract/document/9506712

版权

论文翻译专栏收录该内容

18 篇文章 4 订阅

订阅专栏

Latent-Space Scalability For Mutil-Task Collaborative Intellingence

Abstract
1. Introduction
2. Related Work
3. Proposed Method
3.5 Training
4. Experiments
5. Conclusions
个人总结

Abstract

我们研究了多任务协同智能的潜在空间可扩展性，其中一个任务是目标检测，另一个任务是输入重构。我们提出的方法中，可以有选择地解码部分潜在空间以支持目标检测，而在需要输入重构时可以解码其余的潜在空间。当只需要目标检测时，这种方法允许减少计算资源，并且可以在不重构输入像素的情况下实现。通过改变训练损失函数中各项的比例因子，可以训练系统在目标检测精度和输入重构质量之间实现各种权衡。通过与相关基准对比的实验，验证了可调系统在两个任务上的性能。

1. Introduction

基于人工智能(AI)的应用程序的快速部署正在给从手持设备到大规模云计算系统等多个系统的计算资源带来压力。最近的研究[1,2]通过在边缘和云之间分割AI模型(如深度神经网络，DNN)，建立了协同智能(CI)的概念，作为应对这些挑战的一种方法。在这样的框架中，由模型前端产生的中间特性从边缘发送到云端。因此，中间特征的压缩成为人们关注的话题。相关的标准化活动包括视频编码器(VCM)[3]和JPEG-AI[4]。
例如，[5-9]已经证明编码中间特征可以导致显著的压缩增益，而任务准确性的损失最小。这些研究基于现成的单任务DNN模型。在我们早期的工作[10]中，开发了一个多任务CI模型，该模型支持目标检测和输入重构，使用中间特征的近乎无损编码。针对不同的多任务模型，提出了利用有损特征压缩的相关方法[11,12]。与这些通过编码单个特征张量来支持多个后端任务的方法不同，最近的提案[13,14]关注的是支持多个任务的可伸缩编码。例如，[14]提出了一种可扩展的编码方法，支持人脸目标检测和生成输入人脸重建。虽然生成解码器在人脸重建方面效果表现很好，但在重建输入图像的非人脸细节方面可能不太成功。
在本文中，我们提出了一个利用潜在空间可扩展性来支持目标检测和输入图像重建的CI系统。其中，部分潜在空间(基础层)用于目标检测(基础任务)，而整个潜在空间用于输入重构。未用于基本任务的潜在空间的部分可以解释为增强层。这种表示也可以用于其他多任务模型，并允许对输入进行高效、可扩展的学习表示。
第2节简要回顾了中间特征压缩的相关方法。第3节描述了所提出的方法。第4节给出实验结果，第5节给出结论。

2. Related Work

早期的特征压缩方法[5 - 9]侧重于从单任务DNN编码单个特征张量，任务是图像分类[6,7]或目标检测[5]。在这些工作中，一种流行的编码特征张量的方法是将张量平铺到图像中，应用预量化(例如，每个张量元素8比特)，然后使用传统的图像编解码器进行压缩。为了进一步提高张量编码效率，[8,9]提出了张量信道预测、数据裁剪等附加方法。
由于图像/视频分析中经常需要执行多个任务[13,15]，另一组方法主要针对多任务DNN进行特征压缩[10-12]。虽然这些工作验证了从单个压缩特征张量进行多任务分析是可行的，但没有进一步研究如何有效地组织多任务的潜在空间。特别地，在这些方法中，需要重建整个张量来完成任何任务。最近，[14]提出了一种可扩展的人脸图像编码特征表示。其中，人脸目标检测所需的边缘匹配构成基础层，附加的颜色信息构成增强层。仅利用基础层信息即可实现人脸目标检测，而利用生成译码器可以同时利用基础层和增强层实现人脸图像的重构。虽然[14]的主要思想非常吸引人，但目前还不清楚这种方法如何扩展到更一般的(例如，非人脸)图像编码场景。
本文提出的方法基于可伸缩的潜在空间表示的思想，比[14]更适用。特别是，它可以适应一般的学习特征和任意的基础任务。为了具体起见，我们的实验是在一个以目标检测为基本任务的模型上进行的，但需要注意的是，类似的方法也可以应用于另一个基本任务，如图像分类、目标分割等。

3. Proposed Method

3.1 Motivation

本文研究的CI系统的马尔可夫链模型如图1 所示。输入图像 $X$ 经过边缘子模型 $f_1$ 处理，产生特征 $\mathcal{Y}$ 。在云端，子模型 $f_2$ 从特征 $\mathcal{Y}$ 重构出对输入图像 $X$ 的近似 $\hat{X}$ ，子模型 $f_3$ 进行目标检测，生成集合 $T$ ，包含边界框和目标类。

(图1. CI系统的马尔可夫链模型。)
处理链 $X\rightarrow\mathcal{Y}\rightarrow\hat{X}$ 作为端到端图像编解码器。注意，也可以对解码图像 $\hat{X}$ 执行目标检测，使用现成的目标检测器，如YOLO[16]或SSD[17]，如图1 中的 $f_4$ 所示。事实上，这种从解码图像(而不是原始图像)进行目标检测是常见的做法，因为目标检测数据集(如COCO[18]和ImageNet[19])包含的是jpeg压缩的图像，而不是原始图像。将数据处理不等式[20]应用到马尔可夫链 $\mathcal{Y}\rightarrow\hat{X}\rightarrow T$ ，我们有
$I(\mathcal{Y};\hat{X})\geq I(\mathcal{Y};T)\tag{1}$
其中 $I(\cdot;\cdot)$ 表示互信息[20]。这表明，中间特征 $\mathcal{Y}$ 携带的目标检测 $(T)$ 信息比它们携带的输入重建 $(\hat{X})$ 信息要少。这种观察激发了我们的方法——我们构造特征 $\mathcal{Y}$ ，这样 $\mathcal{Y}$ 只有一部分用于目标检测，而 $\mathcal{Y}$ 的整个用于输入重建。
图2 展示了我们的CI系统架构。系统中的许多模块都是基于[21]的，下面将更详细地讨论新提出的模块。

(图2. 我们的CI系统架构。“Q”表示量化，“AE”/“AD”表示算术编码器/解码器。“上下文模型”、“熵参数”和“超分析/综合”的配置细节遵循[21]，而“分析编码器”、“综合解码器”和“潜在空间变换”是我们新提出的。)

3.2 Analysis Encoder and Synthesis Decoder

大多数的端到端学习图像压缩方法[21-23]都是针对RGB输入图像而设计的，我们的系统是针对YUV420输入格式设计的，而YUV420输入格式在视频编码中更为常见。具体而言，输入图像 $X$ 包括亮度通道 $X_L\in\mathbb{R}^{1\times H\times W }$ 和色度通道 $X_C\in\mathbb{R}^{2\times H/2\times W/2}$ ，其中 $H\times W$ 为输入分辨率。相应的分析编码器和综合解码器的结构如图3 所示。分析编码器包括许多卷积(“CONV”)层(带有5 × 5过滤器)和广义分解正则化(GDN)[24]层。亮度分支的降采样通过与第2步的卷积实现。分析编码器和综合解码器的镜像，卷积替换为转置卷积(↑表示)，GDN层替换为逆GDN (IGDN)层。在综合解码器的输出处，重建输入的 $\hat{X}$ ，由 $\hat{X_L}$ 和 $\hat{X_C}$ 组成。

(图3. YUV420输入/输出的 (a)分析编码器和 (b)综合解码器的架构)

3.3 Latent-space scalability

我们系统的隐空间特征张量为维度 $\mathcal{Y}\in^{N\times H/16\times W/16}$ ，由 N=192 个通道组成: $\mathcal{Y}=\{Y_1,Y_2,\cdots,Y_N\}$ 。我们把这个张量分成两部分， $\mathcal{Y}_{base}=\{Y_1, Y_2，\cdots,Y_j\}$ ，表示 $j < N$ 个通道的基础层特征，且 $\mathcal{Y}_{enh}=\{Y_{j+1}, Y_{j+2}，\cdots,Y_N\}$ ，表示有 $N - j$ 个通道的增强层特征。在我们的实验中，我们使用 $j = 128$ 。在解码器上，如果只需要检测目标，则只需要重构 $\mathcal{Y}_{base}$ 。如果需要重建输入图像，则需要重建整个 $\mathcal{Y}$ 。
显而易见的问题是，我们如何知道与目标检测相关的信息集中在 $\mathcal{Y}$ 的前 $j$ 个通道中？这是通过从头训练图2 中的整个模型来实现的，如3.5节所述。通过对各种损失项进行基于梯度的更新，模型学习将与目标检测相关的信息引导到 $\mathcal{Y}_{base}$ 中，同时学习利用整个 $\mathcal{Y}$ 来重建输入图像。

3.4 Latent space transform

在我们的系统中，我们使用YOLOv3[16]的预训练后端进行目标检测，特别是从 $l = 12$ 层的批归一化输入到模型输出的部分。此时，YOLOv3期望的特征张量 $\mathcal{F}^{(l)}\in\mathbb{R}^{256\times H/8\times W/8}$ ，而我们重建的基特征是 $\mathcal{Y}_{base}\in\mathbb{R}^{128\times H/16\times W/16}$ 。因此，需要从一个潜在空间转换到另一个潜在空间。潜空间变换模块的结构如图4 所示；它包括一个转置卷积层，其目的是匹配目标潜在空间的空间分辨率，和一个IGDN层和卷积层序列。在输出端，在目标潜在空间中产生一个特征张量 $\tilde{F}^{(l)}$ 。一旦计算出 $\tilde{F}^{(l)}$ ，将其送入YOLOv3中 $l = 12$ 层的批归一化 $B^{(l)}$ ，然后再输入 LeakyReLU 激活 $\sigma(\cdot)$ ，从而产生 $l = 13$ 层的输入。

(图4. 潜在空间转换，以支持从 $\hat{\mathcal{Y}}$ 的子集中检测目标)

3.5 Training

我们的损失函数是率失真拉格朗日函数的形式
$\mathcal{L}=R+\lambda\cdot D\tag{2}$
其中 $R$ 为率估计， $D$ 为输入重构和目标检测的联合失真， $\lambda$ 为拉格朗日乘子。由于我们的编码引擎是基于[21]的，因此比特流由编码潜在数据的主比特流和编码超先验的次比特流组成。基于[21]，这两个比特流的速率估计是
$R=\begin{matrix} \underbrace{ \mathbb{E}_{x\sim p_x}[-log_2p_{\hat y}(\hat y)] } \\ main~bitstream \end{matrix}+\begin{matrix} \underbrace{ \mathbb{E}_{x\sim p_x}[-log_2p_{\hat z}(\hat z)] } \\ side~bitstream \end{matrix}\tag{3}$
其中 $x$ 表示输入数据， $\hat y$ 表示潜在数据， $\hat z$ 表示超先验。失真度 $D$ 计算为
$D=MSE(X,\hat X)+\alpha\cdot MSE(\sigma(B^{(l)}(\mathcal{F}^{(l)})),\sigma(B^{(l)}(\tilde{\mathcal{F}}^{(l)})))\\+\beta\cdot(1-MSSSIM(X,\hat X))\tag{4}$
其中 $\alpha$ 和 $\beta$ 是用于实现各种权衡的尺度因子，MSE是均方误差，MS-SSIM是多尺度结构相似性指数度量[25]。
(4)中的第一项鼓励准确地重建输入图像，而第三项鼓励其感知质量。第二项是 YOLOv3 的 $l = 12$ 层输出处的真实特征张量与由我们的基特征 $\mathcal{Y}_{base}$ 导出的对应特征张量之间的MSE。由于这个术语只依赖于 $\mathcal{Y}_{base}$ 而不依赖于 $\mathcal{Y}_{enh}$ ，因此从它派生的梯度将更新模型，从而使与对象检测相关的信息转向 $\mathcal{Y}_{base}$ 。同时， $\mathcal{Y}_{base}$ 和 $\mathcal{Y}_{enh}$ 都参与输入重构，因此由(4)中的第一项和第三项导出的梯度将在 $\mathcal{Y}_{base}$ 和 $\mathcal{Y}_{enh}$ 中分布与输入重构相关的信息。图2 中的系统训练是使用一组图像 $X$ 和这些图像在 YOLOv3 层 $l = 12$ 的输出处对应的真实特征张量从无到有进行训练的。

4. Experiments

我们的模型是在CLIC[26]和JPEG-AI[27]数据集上训练的。使用Lanczos过滤器将JPEG-AI数据集的图像大小调整为 1920×1080。在CLIC数据集中，只使用了分辨率为320×320或更大的图像。训练过程中使用大小为 256 × 256 的随机窗口对图像进行裁剪。对所有训练图像生成YOLOv3第12层的真实特征张量，用于计算 公式(4) 中的第二项。在训练过程中，这些张量被裁剪为 256 × 32 × 32，以匹配输入图像中随机 256 × 256 窗口的位置。学习速率为 $10^{−4}$ 的Adam优化器被用于在带有11 GB RAM的GeForce RTX 2080 GPU上训练网络2M epoch。与[21]类似，对 公式(2) 中的每个 $λ∈\{0.005,0.01,0.02,0.05,0.1,0.2\}$ 训练一个模型。
由于我们的模型支持两个任务，我们将其与每个任务的相关基准进行比较。对于目标检测，模型在 COCO 2014 验证数据集上进行评估，该数据集包括大约5K的jpeg压缩图像。这些JPEG图像的平均文件大小约为1260 Kbits，现成的 YOLOv3 在这些图像上实现了55.85%的平均精度(mAP)。如图5 中的红色方块所示。使用 HEVC-Intra 对YOLOv3第12层的8位预量子化张量平铺编码，得到图5 中的棕色曲线。黄色曲线显示了我们最近的工作[8]，我们认为它是编写YOLOv3特性张量的最先进的。为了评估所提出的模型，输入图像首先使用ffmpeg转换到YUV420，然后输入模型。(4)中几个α和β值的性能曲线如图5 中红色、绿色和蓝色所示。请注意，正如(4)所预期的那样，增加α可以提高目标检测性能。在α = 20的情况下，可以在非常低的比特率下实现卓越的目标检测性能，与默认的YOLOv3相比，mAP损失不到1%。即使α较低，该模型在低比特率下也能与[8]相媲美。图5 中的阴影区域显示了通过改变α可以实现的操作范围。

(图5. 各种方法的目标检测性能。)
当使用输入重构时，我们的模型充当端到端图像编解码器，因此我们将其与原始 YUV420 HEVC 通用测试序列[28]的相关基准进行比较。一个基准是HEVC (HM-16.20)[29]，具有所有Intra配置[28]。由于我们的模型的主干是基于[21]的，所以我们使用来自[21]的模型作为第二个基准。使用[21]对 YUV420 输入进行编码，采用最近邻插值法对色度通道进行上采样，然后使用ffmpeg将色度通道转换为RGB。使用ffmpeg将RGB输出转换回YUV420。
表1 显示了针对HEVC的平均 bd-rate，通过 Y-PSNR 与比特曲线计算。我们的(α， β) =(12,10)模型对A、B和C类序列的性能优于[21]，甚至优于A类HEVC。这可以从(4)中得到预期，因为较小的α加上较大的β不强调目标检测性能，反过来促进输入重建。同时，设置(α， β) =(20, 0)会使输入重建的效率损失相当大，但却能获得出色的目标检测性能，如图5 所示。
表2 显示了通过 Y-MS-SSIM 与比特曲线计算的HEVC的平均bd -比特率。众所周知，基于深度模型的端到端图像编解码器在MS-SSIM上表现良好，这在表2 中确实值得注意。在这里，来自[21]的模型在所有序列类中都优于HEVC，我们的 (α，β) =(12, 10) 的模型也如此。我们的模型在类B中比[21]做得更好，而在其他类中，[21]提供了更好的性能。我们还可以注意到，当我们的模型(α，β) =(20, 0)时，与MS-SSIM相比，输入重构效率的损失现在要小得多。
综上所述，本文提出的模型在作为图像编解码器和端到端图像编解码器时，压缩效率可与[21]相媲美，在使用MS-SSIM测量重构质量时，其压缩效率优于HEVC。在此基础上，我们的模型提供了从潜在空间子集执行目标检测的可伸缩性，这是[21]和HEVC(以及任何其他编解码器，据我们所知)目前都不能提供的。因此，我们认为这将是对这一领域未来研究和标准化活动的有益贡献。

5. Conclusions

我们引入了多任务协同智能的潜在空间可扩展性，并在一个支持目标检测和输入重构的系统上进行了测试。其中一部分潜在空间用于目标检测，而整个潜在空间用于输入重构。适当选择的损失项允许在模型训练时将相关信息转向潜在空间的不同部分。通过改变各种损失项的比例因子，演示了两个任务之间的不同权衡，并与相关基准进行了比较。

个人总结

本文提出了一个利用潜在空间 $\mathcal{Y}$ 可扩展性，来支持目标检测和图像重建的协同智能 CI 系统。其中，部分潜在空间 $\mathcal{Y}_{base}$ 用于目标检测，而整个潜在空间 $\mathcal{Y}_{base} + \mathcal{Y}_{enh}$ 用于图像重构。

进击的小老虎丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Latent-Space Scalability For Mutil-Task Collaborative Intellingence

研究了多任务协同智能的潜在空间可扩展性，其中一个任务是目标检测，另一个任务是输入重构。在我们提出的方法中，可以有选择地解码部分潜在空间以支持目标检测，而在需要输入重构时可以解码其余的潜在空间。当只需要目标检测时，这种方法允许减少计算资源，并且可以在不重构输入像素的情况下实现。通过改变训练损失函数中各项的比例因子，可以训练系统在目标检测精度和输入重构质量之间实现各种权衡。通过与相关基准相比的实验，验证了可调系统在两个任务上的性能。............
复制链接

扫一扫