Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection

心之所向便是光v

已于 2022-05-17 17:29:56 修改

阅读量736

点赞数

分类专栏：论文笔记文章标签：论文 cvpr

于 2022-05-12 22:26:11 首次发布

本文链接：https://blog.csdn.net/qq_39172845/article/details/124740329

版权

论文笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章叫《何为抄袭：基于区域表征的时尚形象检索设计保护》，阿里基于服装区域性表达的检索模型，对图像中的服装进行区域化的相似性学习和度量，检索效果显著提升。

Abstract

随着电子商务的快速发展和网络购物的普及，时尚检索在计算机视觉界受到了相当大的关注。与现有的主要集中在相同或相似时装项目检索的工作不同，在本文中，我们的目标是研究在学术界被忽视的抄袭衣服的检索，而它本身具有很大的应用价值。关键挑战之一是抄袭服装通常会在原始设计的某个区域进行修改，以逃避传统检索方法的监督。为了缓解这一问题，我们提出了一个名为Plagiarized-Search-Net（PS-Net）的基于区域表示的新网络，我们利用地标（原文中称 landmarks，地标可以理解成有助于识别所处地点）来指导区域表示的学习，并对时尚物品进行区域比较。此外，我们提出了一个名为Plagiarized Fashion的新数据集，用于抄袭衣服的检索，这为现有的时尚检索领域提供了有意义的补充。在Plagiarized Fashion数据集上的实验验证了我们的方法比其他实例级的对应方法更胜一筹，显示了对原创设计保护的良好效果。此外，我们的PS-Net也可以适用于传统的时尚检索和地标估计任务，并在DeepFashion和DeepFashion2数据集上取得了最先进的性能。

1、Introduction

由于这些年网络购物的蓬勃发展，与时尚相关的工作吸引了越来越多的关注。基于深度学习的方法的快速增长进一步增强了时尚图像分类[30, 34]、时尚地标检测[39, 27]和时尚检索的能力[45, 4, 49, 31]。传统的服饰检索方法通常在整个衣服实例中进行相似性学习，没有任何重点，这很容易受到不相关特征的干扰。最近的服饰检索方法[2, 4, 20, 49]学习属性表征来指导服饰检索，从而提高了性能。

与现有方法[ 26,45,2,4,49 ]通常以检索视觉上相似或相同的衣服为目标不同，我们关注的是一个新颖的抄袭服饰检索问题。抄袭的服装检索在学术界有些被忽视，而在业界却有很大的应用价值。与现有的方法 [26, 45,2, 4,49] 通常旨在检索视觉上相似或相同的衣服不同，我们关注的是一个新的抄袭衣服检索问题。抄袭衣服检索在学术界有些被忽视，同时在行业内具有很大的应用价值。 相似衣服检索任务与抄袭衣服检索任务有些相似，因为一些重新检索到的相似物品可能是抄袭的。然而，抄袭的物品并不总是与原创时尚物品非常相似。如图 1 所示，抄袭的服饰与原始服饰中的相似服饰相比，差异相对更大。

图一。相同、相似和抄袭的衣服与原始物品的例子。

因此，两个任务的检索目标是不同的。此外，在抄袭衣服检索任务中，ground-truth 图像可能与原始物品（例如长袖 T 恤和短袖 T 恤）属于不同的类别。但在相似或相同的衣服检索任务中，它们通常属于同一类别。这也表明抄袭的衣服检索任务更具挑战性。

其实，抄袭的衣服非常复杂，出现的形式也很多样。例如，只抄袭某个部分的设计的商品可以被认为是抄袭，或者在没有任何授权的情况下完全抄袭另一件商品的商品，等等。此外，抄袭衣服的形式是动态的，因为非法商家不断地更新他们的抄袭方式。因此，很难使用一个统一的定义来包括所有的抄袭类型。作为第一项针对剽窃衣服检索任务的工作，我们最初将剽窃衣服定义为在原始设计上修改少于或等于两个区域的样本（例如，改变领子的形状，修改胸前重新区域内的图案）。在电商平台上，这类抄袭的衣服占据了很高的比例。此外，所定义的抄袭衣物相对容易评估，因此有助于对抄袭衣物检索任务的研究。

在与时尚相关的工作中[1，2]，衣服属性是常用的。然而，衣服属性在某种程度上是主观的，这对于抄袭衣服的检索任务来说不是很合适。例如，如图2所示，在一些困难的情况下，很难判断袖子的长度或领子的样式。

此外，对于一些变形和遮挡的服装，检索性能也明显下降。相反，衣服的几何特性具有很强的确定性，能够对变形和遮挡的样本保持稳定性。因此，我们提出了一种基于区域表征的新型PS-Net。 其中，衣服地标被用来指导区域表征的学习，衣服被逐个区域进行比较。此外，我们发现不同类别的抄袭服装在不同地区很容易被修改。因此，我们希望为每个类别的衣服学习不同的区域权重组，以便在相似性学习期间自动操纵区域权重。通过这样做，一个剽窃的衣服图像与修改后的区域更容易被召回。此外，抄袭衣服检索任务没有可用的数据集。因此，我们收集了一个名为“Pla-giarizedFashion”的新数据集，其中服装图像由知识产权保护专业的专家标注。

总之，我们论文的主要贡献是：

我们引入了一个新的剽窃服装检索问题和一个名为“Plagiarized Fash-ion”的新数据集，用于剽窃服装检索，为时尚检索领域提供了有意义的补充。
提出了一种基于区域表示的多任务网络 PS-Net，在抄袭衣服检索方面优于其他实例级网络。
除了被剽窃的服装检索，我们提出的PS-Net还可以用于传统的时尚检索和标志性的估计任务，在DeepFashion 和DeepFashion2 数据集上取得了最新的性能。

2、相关工作

视觉时尚分析：

由于这些年电子商务和网上购物的蓬勃发展，视觉时尚相关的工作吸引了很多人的注意。随着大规模时尚数据集 [27, 14] 的发展，基于深度学习的技术进一步激发了人们对时尚相关任务的兴趣，例如服装识别 [6,17,19]，服装检索 [16,26,45, 2, 49]，服装推荐 [23, 18]，服装合成 [5, 24] 和时尚地标（显著区域）检测 [28, 39]。最近，一些多任务神经网络，如 Fashion-Net [27] 和 Match-RCNN [14] 甚至可以同时执行上述任务。早期关于服装识别的工作 [40, 12] 主要依赖于手工制作的特征，例如 SIFT [29]、HOG [11]。这些方法的性能受到其特征表示能力的限制。最近，已经引入了大量基于深度学习的模型来学习更具代表性的表示 [49, 22]，甚至可以处理跨域场景 [16] 和近似重复检测任务 [33]。此外，一些相关工作已经使用解析[45、44]进行衣服检索，或通过属性驱动方法实现搜索服饰[12、1、2、49]。然而，我们在实践中发现，对于抄袭服装图片的检索，由于抄袭服装的特点：在原设计上修改小于或等于两个区域，现有方法并不够有效。

与上述工作不同的是，在本文中，我们关注的是抄袭衣服检索这个新任务。据我们所知，本文是第一个关于被剽窃的衣服检索的工作。此外，该任务旨在检索带有区域操作的抄袭衣服，这在某种程度上与深度伪造检测任务有类似的想法[7, 15]。

特征点的引导性注意

特征点检测技术（Landmark detection）现在被广泛用于许多任务中，如人脸对齐[42]和人体姿势估计[36]。为了获得更强的服装特征表示，近年来提出了时尚特征点估计任务[ 28、 46、 39 ]。另一方面，注意力技术也是获得更强特征表示的有效方法。以前的工作 [43, 47, 38] 已经证明注意力机制是有帮助的，因为它使网络能够专注于关键特征并过滤掉不相关的特征。

给定一个图像，典型的注意力模型通过注意力权重的加权求和来学习获得一个完整的图像权重特征向量。然而，在这项工作中，我们更进一步，在预测特征点的指导下将时尚项目（即服饰）划分为几个区域，并学习获得几个加权的区域特征向量。利用所提出的区域注意力，我们逐个区域地比较图像，发现它比典型的注意力更适合于剽窃衣服的检索任务。

3、 Our Approach

我们的工作旨在检索出在原始设计上修改少于或等于两个区域的抄袭衣服的图像。因此，关键是计算两幅衣服图像之间的相似度。为此，我们提出了一个抄袭搜索网络（PS-Net），它获得图像的区域表示，并逐个区域计算出相似度。特别是，给定一个衣服图像 I，我们建议用多个区域特征来表示图像。其中 R 是图像区域的数量。

此外，我们从实践中发现，不同类别的服装在不同地区很容易被抄袭。因此，我们想学习不同种类的服饰的区域权重( $\large \lambda 1$ , $\large \lambda 2$ ,..., $\large \lambda r$ )，以自动操纵区域权重以进行抄袭衣服检索。

最后，衣服图像 I 和 I ' 之间的相似度为：

其中cos表示两个特征向量之间的馀弦相似度。

图3说明了我们提出的PS-Net的结构，它由一个主干、一个标志性分支（Landmark branch，我就理解成寻找特征点的分支了）和一个检索分支组成。由于我们的 PS-Net 有一个地标分支（landmark branch），所以它也可以用于时尚地标检测任务。接下来，我们首先描述了我们提出的PS - Net的详细结构，然后描述了它的优化。

图三。基于 HR-Net 主干网络（隐藏了一些卷积层），提出的 PS-Net 结构由地标分支（Landmark Branch）和检索分支组成。主干的两个输出特征图 F∈ $\large R^{28*28*1024}$ 是相同的，用于演示。在 ROI 池化期间，地标（特征点）引导的区域注意力被引入检索分支。检索分支也分为两部分输出，一是传统时尚检索，二是抄袭服装检索。由绿色和红色框包围的图像分别表示抄袭的衣服和相同的衣服。

网路结构

网络的骨干网络：

在提出的 PS-Net 中，我们选择 HR-Net [36] 作为我们的主干网络。HR-Net 凭借其多级并行结构，可以在深度网络中保持高分辨率，这对于地标估计（Landmark Estimation，我理解成关键点估计啦）任务尤为重要。请注意，主干的选择不是强制性的，可以用任何具有类似效果的主干代替（例如，ResNet [19]、VGG-Net [35]）。此外，如图3所示，PS - Net中的标志性分支（landmark branch）和检索分支共享相同类型的主干( 但不完全相同的一个 )。在将衣服的图像输入到主干之前，我们首先检测图像中的衣服。因此，我们在 DeepFashion2 [14] 数据集上训练了一个 Faster R-CNN [32] (Res50-FPN) 模型作为检测器，以获取衣服及其类别标签。裁剪后的图像被调整为 224×224 像素作为输入 I。

Landmark Branch.（关键点/特征点分支）

我们设计了一个地标分支来预测每个衣服图像上的地标。更具体地说，我们将时尚地标估计任务转换为预测 k 个热图，其中每个第 i 个热图表示第 i 个地标的位置置信度。给定骨干输出特征图F，我们用一个1×1卷积将其转换为28×28×128。然后，利用几组转置的卷积来产生一个高分辨率的地标热图，其比例与输入相同。最后，我们使用回归来估计选择地标位置的热图。

Regional Attention-based Retrieval Branch（基于区域注意的检索分支）

另一方面，主干的输出特征图 F 被馈入到检索分支。在我们的实验中，我们首先在 Deepfashion2 [14] 数据集上训练模型，以获得相同衣服图像检索的能力。之后，我们得到一个预训练模型，用于对抄袭衣服检索任务进行进一步的步骤训练。利用地标分支（landmark）实现的区域表示，我们通过操纵区域权重来微调检索模型。最后，我们可以得到一个检索模型，有两种输出形式-m，分别是“时尚输出”，和我们的目标—抄袭“输出”，如图 3 所示。

地标分支产生的注意力通过以下过程引入检索分支：首先，我们将主干网络的表示输出 F∈ $\large R^{28*28*1024}$ 和双线性下采样的地标（关键点）信息 $\large M_{ij}$ ∈ $\large R^{28*28*32}$ 的连接作为输入。其次，我们将输入的注意力图谱A重塑为28×28×1024，它具有检索分支的目标规模。然后，受以前的时尚分析工作的启发[25]，通过制作 $\large {F}'=Fo(1/2+A)$ ，其中o代表哈达玛积结果，将注意力引入到检索分支中。通过在注意力特征图上增加1/2，元素的范围变成了（1/2,3/2）。关键特征通过大于1的元素得到加强，而不相关的特征则通过小于1的元素被过滤掉。例如，袖口和衣领等关键区域周围的地标可以引导特征的提取，这使得这些关键特征有更多的可能被保留下来。

为了学习剽窃重新检索任务的区域表示，我们更进一步，在预测地标的指导下，将时尚项目分为几个区域，如图4所示。五个边界框被确定为建议区域，分别涵盖了最大的分割区域。然后，我们在哈达玛积乘积的特征图上实现了基于建议区域的ROI池化。通过这种方式，地标（特征点/关键点）引导的区域注意力被引入检索分支，输入图像 I 由多个区域特征表示。

与之前在个人 re-ID 领域的工作 [50] 不同，我们通过 RPN [32] 网络生成区域进行特征分解，我们直接通过地标输出的分布来划分区域。通过这种方式，我们的方法生成的区域是显式的而不是隐式的，这在地标估计的高精度下更加可控。

图4.地标引导区域划分的可视化。估计五个边界框，分别覆盖最大的分割区域。

优化

我们方法的优化过程可以分为两个阶段：预训练阶段和微调阶段。

预训练阶段：

对于地标分支，我们选择均方误差 (MSE) 作为我们的损失函数。通过应用以每个地标（关键点）的位置为中心的标准差为 1 个像素的 2D 高斯分布来生成真实热图。对于基于区域注意力的检索分支，我们使用了检索任务中常用的三元组 (tri) 排序损失 [13, 48]。形式上，损失定义为：

其中 I 对应于输入图像，N 是训练样本数，R 是区域数，m 表示边距。

损失旨在最小化:

请注意，三元祖损失是从相同的小批量中选择的。对于每个三元祖来说。I 和 $\large I^{+}$ 必须共享相同的
标签，而 $\large I^{-}$ 则是从其他标签中随机选择的。这样一来，相同衣服的图像在特征空间中就会彼此接近。在特征空间中彼此接近。之后，我们还将区域表示 (f 1 ,f 2 ,...f 5 ) 组合成一个全局表示。连接特征用于获得“时尚服饰输出”。图 3 中提到。

一般来说，我们的方法能够通过利用地标引导（关键点引导）区域注意力来学习关键特征表示，这可以在训练过程中增加对特定区域的关注。此外，与属性驱动的相比，衣服的几何属性高度稳定，几乎没有错误的预测，这可以提高一些困难样本（例如，具有变形和遮挡的样本）的检索性能。

微调阶段

抄袭服装检索最具挑战性的问题是，抄袭者通常会在原设计的某个区域对服装进行修改，以逃避传统检索方法的监督。我们从实践中发现，不同类别的服装在不同地区都容易被抄袭，如表1所示。因此，我们想学习不同类别衣服的区域权重，以便自动操纵区域权重进行抄袭衣服检索。在训练过程中，每张衣服图像自动地被分为 5 个区域（包括 2 个袖子），由关键点的几何分布引导。

在最后一个卷积层的输出特征上，施加如下所示的抄袭检索损失 $\large \iota_{pla}$ 以启用区域权重
学习，它与传统的时尚检索共享相同的网络框架：

损失 L pla 仅用于更新每个区域的权重 λ r ，与传统检索任务的参数更新解耦。

L′tri 是一个基于三元组的损失，包含区域权重 λr。α tri 是损失函数 L'tri 的权重，在训练期间更新。通过α tri的调整，单个区域特征差异大而其他区域差异小的样本的损失 L‘tri 会更低。

我们使用坐标上升法作为我们的优化方法，每个区域的 λ r 在开始时设置为 1，步长 Δλ 为 0.1。步长在 40 个 epoch 后下降到 0.05，在 60 个 epoch 后下降到 0.01。每个区域的权重在每次迭代之前以步长进行采样

每次迭代后，如果loss减少，则接受当前权重λ′r；否则，权重返回 λ r 。请注意，五个区域（包括 2 个袖子）的权重总是按比例归一化以确保总和为 1。每个区域的权重会迭代更新以减少直到最后一个 epoch 的损失。最后，我们还将区域表示合并为一个全局表示，以完成抄袭服装搜索。检索分支可以通过操纵特征的区域权重来召回更多部分修改的样本。请注意，四类衣服的区域权重是分别训练的。

在我们提出的抄袭时尚数据集中，不同类别抄袭服装的修改区域分布。

4. Plagiarized Fashion Dataset

这部分不翻译了，自己去看原论文把。

5. Experiment

为了验证我们提出的 PS-Net 对于抄袭时尚任务的有效性，我们在抄袭时尚数据集上对其进行评估。此外，如前所述，PS-Net 还可以适应传统的时尚重新检索和地标估计任务，因此我们还在 DeepFashion 和 DeepFashion2 数据集上进行了实验。

Implementations.

我们提出的多任务网络需要在两个数据集上进行训练：1）在 DeepFashion2 [14] 数据集中学习 13 类衣服的地标估计和检索能力； 2）获取“合理的”区域权重，用于在抄袭时尚数据集中对四类衣服进行抄袭检索。训练依次进行，最后相结合，达到抄袭衣服检索的目的。对于地标分支，初始学习率设置为 0.001。它在第 9 和第 12 个 epoch 以 0.1 的系数减小。训练在 12 个 epoch 后完成。对于检索分支，初始学习率设置为 0.001，并在第 61 和 71 阶段以 0.1 的因子降低。训练在 80 个 epoch 后完成。具体来说，给定一个查询，从抄袭时尚数据集中检索图像大约需要 0.75 秒。性能在具有 64G RAM 和 GTX 1080TI GPU 的计算机上进行测试。

Plagiarized Clothes Retrieval

Experimental Setup.

我们在抄袭时尚数据集上进行抄袭服装检索。我们将我们的方法与没有地标引导区域注意的传统方法、没有学习区域权重的手动操作方法以及广泛用于近重复检索任务的 PCB [37] 方法进行了比较。对于传统方法，我们将五个区域的权重默认设置为 1。对于手动方法，我们收集了25名参与者的手动操作结果，并使用平均权重值完成了抄袭检索。具体来说，在我们提供的交互界面上，用户可以通过拖动滑块降低或提高每个区域权重。模型的其他设置是相同的（例如，主干）。三种方法的结果通过 Top-K 召回和 mAP 的指标进行评估。

Evaluation Resutls.

抄袭服装检索的量化结果见表2。传统检索方法在4类服装上获得了0.645的前20位召回率和0.332的总体mAP，这与PCB 方法类似。手工方法在召回率上提高了10 %以上，总体mAP为0.443，优于传统方法。然后，利用训练得到的权值完成检索。我们的方法在四类衣服上获得了 0.852 的 top-20 召回率和 0.493 的整体 mAP，与其他同类方法相比，这大大提高了性能。特别是，对于在 T 恤和长袖上衣类别中，我们的方法得到了 0.513 和 0.505 的 mAP，明显高于手动方法（0.465 和 0.451）和传统方法（0.313 和 0.353）。

Results Visualization

图 5 显示了我们的方法和传统方法的两组抄袭检索结果。以绿色框为界的图像是正确的召回，表示抄袭的衣服。对于T恤和长袖上衣类，抄袭者常用的伎俩是更换logo文本、添加马赛克或图案并翻转衣服印花。以第一个查询为例，在使用区域操作后，我们成功召回了前 10 个结果中的 5 个抄袭样本。相比之下，对应方法仅在前 10 名中完成了 3 次抄袭召回。对于抄袭的礼服样本，通常不仅有小的局部修改，而且是对整体风格的模仿。因此，这种幅度的修改使得传统的检索方法难以完成召回。对于第二组查询，传统方法无法召回前 10 名结果中的任何抄袭服装。通过操纵区域权重，我们可以召回前 10 名结果中有 3 个抄袭样本。结果表明，我们的方法显着提高了检索抄袭衣服的能力，并减轻了消除了召回具有部分修改的样本的困难。综上所述，我们通过训练学习到的区域权重是合理的，区域操纵机制对于抄袭服装检索是有效的。

消融实验

我们对抄袭时尚数据集进行了消融研究。我们考虑的因素是：注意力机制、区域操作和模型集成。结果由Top-K召回率和mAP评估。

Evaluation Results.

消融研究的定量结果如表 3 所示。我们方法的完整模型在抄袭时尚数据集上实现了 0.842 的前 20 名召回率和 0.493 的 mAP。当我们将五个模型集成在一起时（具有不同的初始学习率
从 0.0005 到 0.01），top-20 召回率增加到 0.852，mAP 变为 0.501。当从完整模型中去除注意力机制-m 时，它实现了 0.811 的 top-20 召回率，mAP 下降到 0.466，这证明了注意力机制对于检索至关重要任务。为了验证区域操作的效果，我们将学习到的区域权重调整为默认值。前 20 名的召回率显着下降超过 15%。最后，我们对没有上述任何成分的模型进行了测试，前20名的召回率在上面下降了20 %左右。从上述比较结果中，我们可以发现我们方法的两个基本设计：地标引导区域注意和区域操作对于抄袭服装检索至关重要。此外，模型融合也是有益的。

心之所向便是光v

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection

阿里提出区域检索算法用于服饰仿冒检索
复制链接

扫一扫