Privacy-Preserving Feature Coding for Machines

进击的小老虎丶

已于 2022-10-09 16:36:05 修改

阅读量197

点赞数

分类专栏：论文翻译文章标签：深度学习

于 2022-10-06 16:40:20 首次发布

原文链接：https://arxiv.org/abs/2210.00727

版权

论文翻译专栏收录该内容

18 篇文章 4 订阅

订阅专栏

Privacy-Preserving Feature Coding for Machines

0. abstract
1. introduction
2. related work
3. proposed method
4. experimental results
- A. resistance to model inversion
- B. feature compression results
5. conclusion

0. abstract

自动化机器视觉管道不需要精确的视觉内容来执行它们的任务。因此，在不显著影响机器视觉精度的情况下，有可能从数据中删除隐私信息。我们提出了一种新的方法来创建一个可以被下游机器视觉模型使用的图像的隐私保护潜在表示。这种潜在表示是使用对抗训练来构建的，以防止输入的精确重建，同时保持任务的准确性。具体来说，我们分离了一个深度神经网络(DNN)模型，并插入一个自动编码器，其目的是降低维数，并删除与输入重建相关的信息，同时最小化对任务准确性的影响。结果表明，在相同的任务精度下，输入重构能力可降低约0.8 dB，且退化集中在边缘附近，这对隐私很重要。同时，与直接编码特征相比，可以节省30%的比特。

1. introduction

物联网(IoT)、视觉监控、自动驾驶、工业机器视觉等人工智能(AI)应用的增长，导致了“智能”边缘设备、传感器及其相关基础设施的激增。这些设备需要相互通信，并与基于云的服务通信，以完成特定的任务。根据思科的年度互联网报告[1]，到2023年，大多数全球连接设备将被分配到机器对机器(M2M)连接。因此，大量的研究工作正致力于开发有效的机器数据编码。JPEG AI[2]和MPEG-VCM[3]等相关标准化活动也已启动。
随着海量数据在边缘设备和云之间传递，隐私问题自然就产生了。如果恶意第三方获得了这些数据的访问权，会发生什么?根据特定的场景和应用程序，存在许多隐私和安全问题，通过各种攻击[4]、[5]就可以证明这一点。本文的重点是模型反演攻击[6]，攻击者试图从拦截的特征中恢复原始图像。如果这种攻击成功，攻击者就会获得包含私人信息的原始图像，然后他们就可以利用这些原始图像进行恶意攻击。密码学方法[7]提供了一种可能的解决方案来保护数据，尽管它们有自己的风险和挑战。但是，在机器数据编码的上下文中，有机会减少或删除数据中的隐私信息，同时保留与任务相关的信息。这是因为机器视觉通常需要更高层次的信息，而不是每个像素的细节，以执行给定的任务。例如，如果DNN模型只想检测街道上的汽车和行人，那么车辆牌照或人脸的细节就不是必要的。
在本文中，我们提出了一种用于机器的特征编码方法，该方法允许在高比特率下以接近默认精度(即接近模型的精度而不压缩)检测对象，同时抵抗模型反演攻击。为此，我们以对抗方式同时训练两个网络[8]。一个是目标检测管道的一部分，另一个是试图从编码特征执行输入重构的对手。训练中使用的损失函数旨在鼓励较高的目标检测精度和较低的输入重建性能，特别是在边缘附近，因为这些细节往往透露隐私信息。

2. related work

几十年来，图像编解码器一直被设计为通过减少代表输入的比特数来提高压缩效率，同时保持原始和重建输入之间的保真度。这一原理适用于人类视觉，特别是在使用感知指标[9]测量保真度时。近年来，DNN模型已经进入到图像编码[10]-[12]领域，与传统编解码器相比，取得了稳步的进展。
然而，越来越多的视觉内容只能在自动驾驶和导航、交通监控等应用程序中被机器“看到”。在这种情况下，从图像中编码相关任务特征而不是图像本身可能是有利的。在当前对DNN感兴趣的浪潮之前，通过MPEG标准“视觉搜索紧凑描述符”(CDVS)[13]和“视觉分析紧凑描述符”(CDVA)[14]，特征编码的效用已经被认识到。最近，在协同智能[15]环境下研究了特征压缩，其中DNN分布在边缘设备和云之间，需要从边缘上传特征到云以完成推断。本文也假设了这种情况。
像图像一样，来自中间DNN层的特征可以使用传统的或基于DNN的编解码器进行编码。在这方面的早期工作[16]-[18]更喜欢传统的编解码器;由于传统编解码器相对于DNN编解码器的计算简单性，以及它们在现有相机和设备中的广泛可用性，这类方法仍然具有吸引力。为了使用传统的编解码器进行特征编码，特征张量通常需要平铺到图像中，缩放和预量化[16]。[17]的作者在通过JPEG编码瓶颈张量之前，使用自动编码器在管道数量和空间分辨率方面减少了潜在空间的维度。这种降维通常有助于提高压缩效率。
较新的方案[19]、[20]采用DNN编码工具，特别是先进的熵模型，对特征进行编码。这种方案的一个优点是它们能够端到端进行训练，并具有一个结合了可微分率估计和任务准确性的损失函数。具体来说，[19]，[20]使用[10]的尺度超先验熵模型来得到速率估计。虽然端到端训练的能力为这些方法提供了额外的灵活性，但缺点是增加了复杂性，并且它们的编码引擎在现有设备中不能广泛使用。
上述的特征编码方法都没有考虑到与编码特征相关的隐私问题。事实上，基于机器特征编码的隐私保护研究相当匮乏。[21]是这方面少有的作品之一，其中提出了一种称为隐私fan的信息理论隐私方法。隐私信息较少、非隐私信息较多的特征只被轻微压缩，而那些携带更多隐私信息的特征则被压缩得更重，以保护隐私。
隐私fan的核心是一种基于特征与隐私/非隐私任务间MI的特征选择方法，在高维空间[23]中难以估计。本文提出的方法通过使用自动编码器来避免这种挑战。由于这个原因，它也比隐私fan更灵活，因为它不仅支持功能选择，还支持功能修改。详情将在下面介绍。

3. proposed method

本研究的主要目的是开发一种机器特征编码框架，以提高对模型反转攻击的抵抗能力。我们的管道如图1 所示。我们选择YOLOv5[24]作为机器任务，但该框架也适用于其他DNN模型和任务。YOLOv5 Github存储库中有几种不同复杂性和准确性的模型。我们选择YOLOv5m并将“image-size”参数设置为512。

在这里插入图片描述 [图1：所提方法的总体框图。Conv(n, k, s)是一个2D卷积层，后面是一个Batch归一层和一个SiLU()激活，n为输出通道的数量，内核大小为k × k, stride=s。Deconv(n, k, s)与Conv(n, k, s)相同，只是有一个卷积转置层。注意，自动编码器中的Conv层没有批处理归一化，AE中的最后一个Conv也没有SiLU()激活。其他块的结构如图2所示。]

在这里插入图片描述
[图2：图1所示部分块的结构。Conv(n, k, s)与图1标题中定义的相同。Conv3×3(n)是一个3×3卷积层，具有stride=1和n个输出通道。" ×k "表示用虚线指定的块重复k次。]

A. split point

为了适应边缘-云协同设置，YOLOv5模型被分为两个部分:部署在边缘设备上的前端和驻留在云中的后端。选择一个分割点是一个设计问题[25]、[26]，这取决于能源考虑、边缘的计算资源、边缘和云之间的连接类型，等等。在这里，我们对分裂点的选择主要基于信息论的考虑。
设 $X$ 是输入图像， $Y_i$ 是第 $i$ 层的特征张量。由于 $X→Y_i→Y_{i+1}$ 形成了一个马尔可夫链，通过数据处理不等式[22]我们得到公式 $I(X,Y_i) \geq I(X,Y_{i+1})\tag{1}$ 其中 $I (\cdot;\cdot)$ 为互信息。因此，更深的层携带的关于输入的信息更少，因此对模型反演攻击更有弹性。此外，如[27]所示，更深的层更可压缩。这些论点建议选择一个尽可能深的分割点。
另一方面，边缘设备上有限的计算和能量资源倾向于选择较浅的分割点。此外，YOLOv5m模型在第5层分支，这意味着如果我们选择第5层之后的分裂点，我们将不得不编码和传输多个特征张量，这将增加复杂性和总比特率。因此，我们选择在第5层拆分YOLOv5m模型。

B. autoencoder

在分割点，我们插入一个自动编码器，它的目的是降低维数和修改特征，如提高模型反演的阻力。这是一种即插即用的策略，也可以用于其他模型和任务。自动编码器如图1 所示:其编码器部分称为AE，解码器部分称为AD。它们由Conv(n, k, s)层和ResBlocks组成，Conv(n, k, s)层的结构在图1 的标题中说明，ResBlocks的结构如图2 所示。AE输出的瓶颈特征张量，其通道维数(64)低于输入张量的通道维数(192)，但空间维数不变。这样做是为了保持后续目标检测的空间精度。得到的瓶颈特征张量被平贴，预量化到每个元素8位，并使用通用视频编码(VVC)-Intra[28]进行编码。在云端，编码后的比特流由VVC解码器解码，之后是AD，最后馈送到YOLOv5m后端。

C. adversarial training

由于该方法的目标是创建具有改进的对模型反演弹性的瓶颈特征，我们构造了一个辅助的DNN模型，称为重建网络(RecNet)，其目标是根据瓶颈特征重建输入图像。如图1 所示，RecNet的架构大致是YOLOv5m前端和AE的一面镜子。我们以对抗的方式训练自动编码器和RecNet[8]。在训练过程中，RecNet试图尽可能从瓶颈特征中恢复输入图像，而AE同时试图通过操纵生成的瓶颈特征来破坏RecNet的性能。同时，AE和AD都试图保持较高的目标检测精度。注意，预训练的YOLOv5m模型保持完整，其权重在整个训练过程中被冻结。每批数据的训练过程总结为以下步骤:
(1) 输入 $X$ 经过前端、AE、RecNet，重构损耗计算如下: $L_{rec} = \frac{1}{n}\Vert{X-\widehat X}\Vert_1+\frac{\beta}{n}\Vert{S_x*X-S_x*\widehat X}\Vert_1+\frac{\beta}{n}\Vert{S_y*X-S_y*\widehat X}\Vert_1\tag{2}$ 其中 $\widehat X$ 是重构输入， $\Vert\cdot\Vert_1$ 是一维范数， $S_x$ 和 $S_y$ 是水平和垂直Sobel滤波器， $*$ 是卷积算子，n是批处理张量的元素总数。β的值经经验确定为5。由于隐私信息通常与精细细节相关，为了强调边缘，我们在重建损失中采用了Sobel滤波器。因此，RecNet在边缘重构方面变得更加强大，这将迫使AE从瓶颈特征中去除边缘信息。
(2) $L_{rec}$ 的梯度只通过RecNet反向传播并更新其权重。注意，自动编码器的权重在这一步是冻结的。
(3) 同一批图像经过全部网络，总损耗计算如下: $L_{tot} = L_{obj} - \omega\cdot L_{rec}\tag{3}$ 其中 $L_{obj}$ 为YOLOv5目标检测损失[24]， $\omega$ 为重建与目标检测之间的平衡权值。根据经验，我们把它设为0.1。
(4) $L_{tot}$ 的梯度只通过自动编码器反向传播并更新其权重。RecNet的权重在这一步被冻结。注意(3)中 $L_{rec}$ 的负号导致AE增加了RecNet重建的难度。同时， $L_{obj}$ 的正号引起了AE和AD提高目标检测的精度。

4. experimental results

我们使用具有32GB内存的NVIDIA Tesla v100r - sxm2 GPU在COCO2017对象检测数据集[29]上分几个步骤训练我们的网络。在第一步中，只有自动编码器使用 $L_{obj}$ 训练了50个epoch。接下来，我们用 $L_{rec}$ 只训练RecNet 20个epoch，自动编码器的权重冻结在第一步中获得的权重。最后，将自编码器和RecNet初始化为先前获得的权重，按照第III-C节所述进行对抗性训练，持续40个周期。在所有的步骤中，我们使用了随机梯度下降(SGD)优化器，初始学习率为0.01，在训练过程中通过余弦学习率衰减[30]改变。本文提出的自编码器训练后的目标检测精度和原始YOLOv5m模型如表1 所示。
[表1：未经过特征压缩的结果。 ]

A. resistance to model inversion

如前所述，RecNet是在对抗训练阶段利用的辅助DNN模型。因此，RecNet不是最终管道的一部分。然而，在实际情况下，如果对手能够获得边缘设备，他们可以尝试使用输入瓶颈对来训练自己的输入重构模型。为了测试我们的模型对抗这种攻击，我们在对抗训练阶段获得的自编码器生成的瓶颈特征上训练一个新的、随机初始化的RecNet。该RecNet使用 $l_1$ 范数损失((2)中的第一项)进行训练，称为RecNet瓶颈。为了进行比较，我们还在原来的YOLOv5m潜空间(没有AE)上训练了另一个RecNet，该RecNet的前三层被去除。我们称这个模型为RecNet-latent。
我们通过在第5层对YOLOv5m特征应用RecNet-latent(没有VVC压缩)，并对我们的瓶颈特征(也没有VVC压缩)应用recnet -瓶颈来测试模型反演攻击的抵抗能力。输入重构性能采用传统的峰值信噪比(PSNR)和一种新的质量度量方法，称为边缘-PSNR，强调边缘附近的PSNR。为了计算边缘信噪比，对原始图像和重建图像分别应用水平和垂直的sober滤波器，获取图像在水平和垂直方向的梯度。然后，考虑梯度的大小作为一个新图像，在此基础上计算边缘信噪比。PSNR和边缘PSNR值见表2。这些结果表明，我们的AE能够去除输入重建所需的一些信息，特别是在边缘附近。特别是，从我们的瓶颈特征重建比从YOLOv5m特征重建差1.4 dB，这种损失主要集中在边缘附近，因为edge-PSNR低于2.5 dB。图3 中还提供了一些可视化的例子。可以看出，在recnet-neck的输出中，边缘更加扭曲，文字不可读，人脸和面部表情也不容易识别。
[表2：输入的重建结果。]

[图3：输入重建示例: (a)原始图像 (b) RecNet-latent的输出 (c) Recnet-bottleneck的输出]

B. feature compression results

为了衡量特征压缩的影响，我们使用VVC-Intra对COCO验证图像的瓶颈特征进行编码，具体来说，它的VVenC[31]实现具有低延迟-更快的预设。在此之前，瓶颈中的64个通道被裁剪，量化到8位，平铺到8×8矩阵中以创建灰度图像。在解码器端，对比特流进行解码，并将产生的张量传递给AD和YOLOv5m后端进行推断。
我们发现瓶颈中的大部分特征值都在[−6,6]的范围内。正如[32]中提到的，特征压缩性能可以通过剪切来提高。为此，我们测试了三个剪辑范围:[−6,6]，[−3,3]和[−1.5,1.5]。我们计算了Bjøntegaard-Delta值[33]之间的相关比率-精度曲线(由于空间限制没有显示)，其中物体检测精度是通过IoU阈值0.5时的平均精度(mAP)测量的。QP值{34,36,38,40,41,42}用于得到这些结果。使用[−1.5,1.5]剪切范围的性能作为锚，基于MPEGVCM报告模板[34]计算的BD-Rate表明，剪切范围[−3,3]和[−6,6]平均分别降低了8.1%和7.1%的比特率。因此，我们选择[−3,3]作为进一步实验的剪切范围。
最后，我们将我们提出的方法与YOLOv5m第5层特征的直接编码(我们称之为“锚”)进行比较。与对瓶颈进行编码类似，对YOLOv5m潜空间中的192个通道进行裁剪，量化到8位，平铺到12 × 16矩阵中，使用VVC-Intra进行编码。
图4 为QP∈{34,36,38,40,41,42}和QP∈{39,41,42,43,44,45}对“拟议”和“锚”得到的Rate-Accuracy和Quality-Accuracy曲线。图4a 所示曲线之间的BD-Rate为−31.3%。因此，我们提出的方法降低比特率平均30%以上，以获得相同的精度。考虑到瓶颈特征的维数减少，这种减少并不令人惊讶。然而，所提方法的新优点是在相同精度下降低了输入重构能力，如 图4b 所示。这里，曲线之间的BD-PSNR为−0.76 dB，这意味着我们的瓶颈特征平均降低了约0.8 dB的输入重构能力。如前所述，根据设计，大部分退化都在边缘附近，这对隐私很重要。

[图4：(a) Bits-per-pixel vs mAP@.5 (b) PSNR vs mAP@.5 ]

5. conclusion

本文提出了一种新的机器特征编码方案，提高了机器对模型反演攻击的抵抗能力。利用自编码器将YOLOv5m潜空间的特征转换为较低维空间，以对抗方式训练自编码器，以降低输入重构能力。视觉和定量结果表明，该方法能够利用模型反演攻击降低恢复图像的质量，特别是在边缘附近。与此同时，与原始YOLOv5m特征相比，对由我们的自动编码器产生的特征进行编码平均节省了30%以上的bit，在相同的目标检测精度下。

进击的小老虎丶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Privacy-Preserving Feature Coding for Machines

自动化机器视觉管道不需要精确的视觉内容来执行它们的任务。因此，在不显著影响机器视觉精度的情况下，有可能从数据中删除隐私信息。我们提出了一种新的方法来创建一个可以被下游机器视觉模型使用的图像的隐私保护潜在表示。这种潜在表示是使用对抗训练来构建的，以防止输入的精确重建，同时保持任务的准确性。具体来说，我们分离了一个深度神经网络(DNN)模型，并插入一个自动编码器，其目的是降低维数，并删除与输入重建相关的信息，同时最小化对任务准确性的影响。
复制链接

扫一扫