The Eyecandies Dataset for Unsupervised Multimodal Anomaly Detection and Localization 论文精读-CSDN博客

本文链接：https://blog.csdn.net/oj_geen/article/details/147962203

题目：The Eyecandies Dataset for Unsupervised Multimodal Anomaly Detection and Localization

题目：用于无监督多模态异常检测与定位的 Eyecandies 数据集

论文地址：ACCV 2022 2210
论文代码和数据集

ACCV 是亚洲计算机视觉会议（Asian Conference on Computer Vision ）的英文缩写，由亚洲计算机视觉联盟（AFCV ）举办。

Abstract 摘要

我们介绍了Eyecandies，这是一个用于无监督异常检测和定位的新型合成数据集。在多种光照条件下的受控环境中，渲染通过程序生成的糖果的逼真图像，同时提供深度图和法向图，模拟工业视觉检测场景。我们为模型训练和验证提供无异常样本，而带有精确真实标注的异常样本仅在测试集中提供。该数据集包含十种糖果，呈现出不同的挑战，如复杂纹理 complex textures,、自遮挡 self-occlusions和高光 specularities。此外，我们通过随机绘制程序渲染流水线的关键参数，实现了大量类内变化。这样可以创建任意数量的具有逼真外观的实例。同样，将异常注入渲染图中，并自动生成像素级标注，克服了人为偏差和可能的不一致性。
我们相信这个数据集可能会鼓励人们探索解决异常检测任务的原创方法，例如通过结合颜色、深度和法向图，因为它们不是现有数据集所提供的。实际上，为了证明利用额外信息实际上可以带来更高的检测性能，我们展示了使用深度卷积自动编码器训练以重建不同输入组合所获得的结果。

Keywords: Synthetic Dataset· Anomaly Detection· Deep Learning.

关键词：合成数据集；异常检测；深度学习

1 Introduction 介绍

1.1 为什么是无监督任务

近年来，人们对视觉无监督异常检测的兴趣日益浓厚，这项任务旨在判断一个从未见过的样本是否呈现出在训练过程中未学习到的偏离正常类别特征的方面。这类似于单类分类任务，在无监督异常检测中，模型完全不了解异常结构，必须仅通过观察正常样本的外观来检测异常。这种明显限制的背后有一个实际原因：根据定义，异常是罕见的，收集包含目标领域中每种可能异常的足够多真实世界数据样本可能非常昂贵。此外，所有可能异常的性质可能甚至是未知的，因此将异常检测视为监督分类任务可能会阻碍模型推广到新类型任务的能力。

1.2 现有的异常检测性能评估数据集

从历史上看，对提出的异常检测（AD）方法进行评估的常见做法是利用现有的多类分类数据集，如MNIST和CIFAR，将相关类别的子集重新标记为内点，其余标记为异常离群点。这种做法的主要缺点是，干净的和异常的领域通常完全不相关，而在现实场景中，如工业质量保证和自动驾驶，异常通常以与正常情况相关的细微变化形式出现。近年来，这种对分类数据集的改编不再被提倡，转而倾向于使用专门为视觉异常检测和定位设计的新数据集，如MVTec AD。然而，大多数可用的数据集仅提供彩色图像以及真实标注，并且很少添加3D信息。此外，所有这些数据集都面临着3D标注的问题，这可能会受到人为偏差和错误的影响。

1.3 Eyecandies数据集

Eyecandies数据集是我们为解决这些问题所做出的主要贡献，它为无监督异常检测提供了一个新的、具有挑战性的基准，包括总共90000张通过程序生成的合成物体照片，这些物体涵盖了10类经典糖果、饼干和甜食（见图1）。不同类别呈现出完全不同的形状、颜色模式和材料，而同一模型的类内差异则由随机改变参数来实现。
在这里插入图片描述

Eyecandies数据集包含用于训练的无缺陷样本以及用于测试的异常样本，它们都带有自动生成的逐像素真实标注，从而消除了对昂贵（且往往有偏差）的手动标注过程的需求。对于每个样本，我们还提供了在不同受控光照条件下渲染的六种视图，同时带有深度图和法向图的真实标注，这鼓励了与许多替代方法的比较研究和探索。
我们发现，现有方法在合成数据上的性能与在真实数据（如MVTec AD ）上获得的结果一致，尽管我们的数据集似乎更具挑战性。此外，3D数据在异常检测中并不常见，我们部署了一个经过训练的深度卷积自动编码器来重建不同的输入组合，结果表明包含3D数据能带来更好的异常检测和定位性能。
要探索数据并评估一种方法，请访问论文中：https://eyecan.ai/github.io/eyecandies 修改：https://eyecan-ai.github.io/eyecandies/ 。有关如何使用该数据集的示例和教程，请访问https://github.com/eyecan-ai/eyecandies 。

2 Related Work 相关工作

图像异常检测与定位（以下简称AD）在诸多领域都是一个普遍存在的研究主题，从自动驾驶到视觉工业检测均有涉及。同样，人们已利用合成数据集来评估所提出方法的性能，这在许多情境中都得到了探索。然而，很少有研究工作探究如何有效地利用合成数据来辅助AD任务，而这正是我们即将呈现的数据集的核心关注点。在接下来的部分，我们首先会回顾公开可用的AD数据集，然后简要分析哪些最具帮助的方法有望助力我们的研究。

2.1 Anomaly Detection Datasets 异常检测数据集

2.1.1 特定类型物体的工业检测数据集

目前存在多种公开的异常检测（AD）数据集，有些专为特定类型物体的工业检测设计，而有些则试图更具通用性。前者的一个例子是磁性瓷砖数据集，它由952张异常图像和5种异常类型组成，共计1501张手动标注的不同分辨率图像。尽管该数据集是该领域的一个参考，但它仅包含单一纹理类别，且在灰度图像的规模上存在局限。规模大得多的另一个类似数据集在Kaggle上发布，聚焦于单一物体类别。

2.1.2 NanoTWICE数据集

NanoTWICE数据集提供高分辨率图像（1024×696 ），不过对深度学习方法而言吸引力不大，因为它仅由5张无异常图像和40张不同尺寸的异常图像组成。

2.1.3 合成数据集：文献[22]-较低的纹理变化、真实标注粗略

文献[22]中作者生成了一个合成数据集，包含1000张正常图像和150张异常图像，其真实标注以椭圆近似。测试集包含2000张非缺陷图像和300张缺陷图像，均为8位灰度图像，分辨率为512×512 。该数据集比通常使用的数据集大，但它显示出较低的纹理变化，但真实标注非常粗略。相比之下，我们的合成流程旨在生成具有较大类内差异且像素级精确真实标注的逼真图像。

2.1.4 MVTec 系列

2.1.4.1 MVTec AD

MVTec AD 专注于工业检测场景，包含5354张真实世界图像，涵盖5种纹理、10个物体类别。测试集包括73种不同类型的异常（每个类别平均5种），总计1725张图像。异常区域已手动标注，同时引入了小不一致和不明确的缺失物体部分。在我们的工作中，我们有意避免这些不明确情况，同时以自动方式提供像素级精确标注。

2.1.4.2 MVTec LOCO AD ：引入结构和逻辑异常

MVTec LOCO AD 引入了“结构”和“逻辑”异常的概念：前者是局部不规则性，如划痕或凹痕，而后者是违反场景约束或需要对场景有更深入理解的情况。该数据集由3644张图像组成，分布在6个类别中。尽管检测逻辑异常很有趣且具有挑战性，但这超出了我们工作的范围，我们只关注缺陷定位。此外，此类缺陷通常特定于某个物体类别，我们难以对其进行自动且一致的缺陷生成。最后，由于没有关于如何标注图像的明确共识，评估起来很困难。

2.1.4.3 MVTec 3D - AD：3D缺陷检测

MVTec 3D - AD 是第一个用于异常检测的3D数据集。作者认为，由于缺乏合适的数据集，3D数据在异常检测领域的应用并不普遍。他们提供了由工业3D传感器获取的4147个点云，涵盖10个物体类别。测试集包括948个异常物体和41种缺陷类型，均已手动标注。这些物体是在黑色背景下捕获的，这对数据增强很有用，但在现实场景中并不常见。此外，3D设备的使用会导致遮挡、反射和不准确性，引入了可能阻碍不同异常检测方案公平比较的噪声源。当然，我们的合成生成不会有这些问题。

2.1.5 文献[13]：合成生成有缺陷样本用于增强异常检测分类器的性能

合成生成有缺陷样本的方法在文献[13]中用于增强异常检测分类器的性能。与我们的工作一样，他们使用Blender[11]创建新数据，尽管他们专注于将真实和合成的图像结合应用，而我们的目标是提供一个全面的数据集用于评估和比较。此外，文献[13]的作者并未发布他们的数据集。

2.1.6 文献[29]：专注于生成大量合成异常样本

文献[29]展示了另一个未公开的数据集。他们以程序化的方式从3D模型渲染2D图像，其中随机参数控制缺陷、照明、相机姿态和纹理。他们的渲染流程与我们的类似，但与文献[13]一样，他们专注于生成大量合成异常样本，以监督学习方式训练一个能够推广到真实数据的模型。

2.1.7 文献[17]：在目标物体的3D重建上应用合成缺陷（本文：合成物体上应用合成缺陷）

最后，在文献[17]中，作者提议在目标物体的3D重建上应用合成缺陷。渲染流程与我们有一些共同思路，比如缺陷的参数化建模和渲染。然而，昂贵的硬件使用以及物理物体的需求限制了构建全面数据集的通用性。此外，本文和之前引用的关于合成增强的论文[13,17]中采用的方法与我们的方法不同，因为该模型是在异常数据上训练的。

2.2 Methods 方法

在过去几年里，出现了许多解决异常检测（AD）任务的新方法。一般来说，这些方法可分为判别式和生成式两类。判别式方法通常对预训练神经网络的特征分布进行建模，而生成式方法则旨在从头开始训练。由于缺乏多样化的3D异常检测数据集，很少有方法专门设计为利用单一2D彩色图像之外的更多信息。因此，我们提出一个新颖且具有开创性的数据集，以进一步研究在异常检测背景下3D几何、法向方向和光照模式的应用。

3 The Eyecandies Dataset Eyecandies 数据集

Eyecandies数据集包含十种不同类别的糖果，这些糖果的选择是为了呈现多样的形状、纹理和材质：
- 拐杖糖
- 巧克力曲奇
- 巧克力果仁糖
- 彩糖
- 小熊软糖
- 榛子松露巧克力
- 甘草三明治糖
- 棒棒糖
- 棉花糖
- 薄荷糖
我们的流程为每个物体类别生成大量独特的实例，所有实例在某些可控方面存在差异。被标记为有缺陷的样本子集，其表面存在一个或多个异常。自动标注的真实分割掩膜提供了像素级精确的分类标签。
在下一个小节中，我们将总体描述我们的流程的设置和生成的数据，然后在3.2节中，我们将介绍可用的缺陷类型。关于数据生成过程的更多细节见第4节。

3.1 General Setup 通用设置

我们将Eyecandies数据集设计为功能完备的多用途数据源，充分利用合成环境的内在可控性。

3.1.1 数据采集的虚拟场景设置

首先，我们创建了一个类似工业传送带通过亮箱的虚拟场景。

3.1.1.1 装置：四个箱灯，一个相机，四个相机灯

①四个光源放置在亮箱的四个角，照亮整个场景。
②相机放置在亮箱内，对着传送带倾斜一定角度。
③相机周围还有另外四个方形光源，如图2所示。
此后，我们将使用 “箱灯” 和 “相机灯” 这两个术语，分别指亮箱角落的聚光灯和相机周围的光源。
在这里插入图片描述

3.1.1.2 为每个样本提供六种拍摄模式

在众多可设想的不同光照模式中，我们为每个样本提供六种拍摄方式：

仅使用箱灯。
四张仅使用一个相机灯（每个灯各一张）。
同时使用所有相机灯。

3.1.1.3 不同方向光照的优势

据我们所知，没有其他现有的异常检测数据集为每个物体包含多种光照模式，这为解决异常检测任务开辟了新颖且令人兴奋的途径。事实上，如图3所示，强烈的方向阴影有助于检测表面不规则性，而在其他光照条件下这些不规则性可能不明显。
在这里插入图片描述

3.1.2 除RGN彩色图外还有深度图和法向图

除了RGB彩色图像外，还为每个场景渲染深度图和法向图。

深度图记录了场景中物体表面各点到相机的距离信息。通过深度图与相机内参等信息，可将深度图转换为点云数据。
法向图包含物体表面各点的法向量信息，可辅助点云处理。在点云数据处理中，法向量有助于理解点云的局部几何特征，比如判断点云表面的凹凸性、平滑程度等。

3.1.2.1 深度图和法向图的采集与表示

两者都是从相机的同一视点对网格进行光线投射计算得出的，即深度是相机参考系中的Z坐标，法向（方向）同样以相机参考系中的单位向量表示，如图4中的示例所示。
在这里插入图片描述

3.1.2.2 考虑多类数据源的好处

考虑这些额外数据源的好处将在第5节中讨论，我们将展示简单地连接颜色、深度和表面法向可以提高自动编码器的性能。

3.1.2.3 还可以用于解决许多其它任务

有趣的是，结合多个光照场景下渲染的深度、法向和RGB图像，不仅可以用于异常检测和定位，还可以用于解决许多其他任务，如光度法向估计和单目立体重建、光场重光照等。

3.1.3 提供一个具有挑战性且干净的基准用以公平地比较

由于我们的目标是模拟数据采集，并非声称可以训练无噪声的模型，因此我们不认为在合成数据集上训练的模型一定有助于解决实际应用问题。相反，我们提供了一个虽然具有挑战性但干净的基准，用于公平地对现有和未来的方法进行比较。

3.2 Synthetic Defects 合成缺陷

现实世界中的缺陷具有各种形状和外观，通常与特定的物体特征和生产过程相关。

3.2.1 三种常见异常

然而，我们确定了一些共同属性，并决定关注三类常见的、可能出现在许多不同类型物体上的异常：

颜色改变，如污渍和烧焦痕迹；
形状变形，即凸起或凹痕；
划痕和其他小的表面瑕疵。

3.2.2 三种异常的组合方式

所有这些类别都可被视为应用于不同输入数据的局部异常。也就是说，颜色改变会改变RGB图像，形状变形会修改三维几何形状，而表面瑕疵只会改变法向方向。

3.2.2.1 深度图正常颜色图正常修改表面法向：代表难以捕捉的微小瑕疵

我们选择纳入那些仅修改表面法向而不影响三维几何形状的缺陷，以表示在深度图上难以捕捉到的微小瑕疵，例如金属表面的划痕。

3.2.2.2 表面凸起和凹痕：深度图修改颜色图正常法向正常；对法向的修改只有在光照明显反射或折射时才进行

因此，在表面出现凸起或凹痕的情况下，我们只对三维网格进行主动更改，而对法向的修改只有在光照明显反射或折射时才会进行。

3.2.3 局部缺陷：相应的像素级二值掩膜

最后，对于每个局部缺陷，我们提供相应的像素级二值掩膜，直接渲染在三维物体模型上，以突出检测模型应识别为异常的区域。

3.2.4 将额外两类异常留待未来研究

我们特意将两类异常留待未来研究。

3.2.4.1 特定类别的缺陷，缺陷仅与某一类物体相关

首先，我们避免了特定类别的缺陷，这类缺陷仅与某一类物体相关。例如，改变棉花糖上糖霜的颜色或在彩糖上添加凸起。然而，这将在设计此类异常与渲染流程的交互方式上带来更多工作，而当前的缺陷可以在没有先验信息的情况下以自动化方式应用，如第4节所述。

特定类别缺陷的问题：“这”指的是前文提到的特定类别缺陷（像改变棉花糖上糖霜颜色、在彩糖上加凸起）。这类缺陷只和某一类物体相关。要把它们融入数据集中，就得专门去设计这些异常和渲染流程怎么配合。因为每个类别物体的特性不同，异常表现形式也不同，所以要仔细考虑怎么在渲染的时候让这些异常合理呈现，这就带来了很多额外工作。

当前缺陷的优势：当前数据集中采用的三类缺陷（颜色改变、形状变形、表面瑕疵），可以不依赖先验信息，用自动化方式添加到数据里。就是说不需要针对每个物体类别去专门设计怎么添加缺陷，按照既定的方法就能自动把缺陷应用到不同物体上，具体的自动化实现方式在第4节有介绍。

3.2.4.2 逻辑异常

其次，我们没有纳入逻辑异常，如文献[6]中所描述的，因为我们认为目前还没有明确的共识来评估检测模型在检测此类异常（如发现缺失的物体区域）方面的定位性能，也不清楚如何在真实异常掩膜中对此类区域进行标注。

3.2.5 无需干预，消除偏差和不一致性

与许多现有数据集不同，我们的数据集无需任何人为干预，从而消除了可能存在的偏差和不一致性。

4 Data Generation 数据生成

4.1 Blender框架

我们在Blender框架中生成了Eyecandies数据集。Blender是一款流行的3D建模软件，通过BlenderProc软件包，它与Python编程语言具有良好的互操作性，BlenderProc是用于过程性合成数据生成的实用工具。

4.2 每类糖果建模为一个参数化原型

每类糖果都被建模为一个参数化原型，即在渲染流水线中，通过程序值定义几何形状、纹理和材质。通过这种方式，特征可以通过一组标量值进行控制，因此这些参数的组合会产生独特的输出。

4.3 生成同一类物体的不同实例

4.3.1 参数视为均匀分布的随机变量，控制一定的边界值内

为了生成不同的物体实例，我们将所有参数视为均匀分布的随机变量，同时选择边界值以在每颗糖果中保持一定的真实感（其中选择边界以在它们之间产生合理的方差）。

4.3.2 使用噪声纹理，实现较高程度类内变化

此外，为了实现较高程度的类内变化（这是任何过程性物体生成流水线的关键），我们使用噪声纹理来引入轻微的随机变形（如在甘草三明治糖果中，以产生粗糙表面上的不规则亮点）。
与上述参数不同，这些纹理是通过设置通用随机种子来控制的，因此让混合器在几何修改器或着色器中生成它们。

4.3.3 没有对现实中采集设备产生的噪声进行建模

没有故意添加其他噪声源，例如，我们没有对任何真实的采集设备进行建模。然而，由于选择的渲染引擎Cycles会在计算表面颜色时不可避免地引入随机瑕疵，我们通过应用NVIDIA Optix™ 去噪技术来消除它们。

4.4 缺陷渲染

异常样本在第3.2节所述的四个纹理参数（即缺陷类型：颜色、凸起、凹痕和法向）上有所不同。为了获得逼真的外观，这些纹理通过UV映射映射到物体网格上，并作为物体的一部分进行渲染。

UV 映射是一种将 2D 纹理精确投影到 3D 模型上的技术，是 3D 建模中为模型添加细节和颜色的重要步骤。

坐标定义：在三维模型中，每个顶点已有三维坐标（x, y, z）确定其空间位置。UV 映射为每个顶点额外定义二维坐标（u, v），构成UV 坐标系，U 和 V 分别代表纹理图像的水平和垂直方向，与三维空间坐标无关。其坐标范围通常是 (0, 1) ，左上角为 (0,0) ，右下角为 (1, 1) 。
映射过程：将 3D 模型的表面 “展平” 成 2D 表示，就像把纸板箱展开成平面。模型每个顶点被分配 UV 坐标，对应纹理图上位置
，实现将纹理贴合到模型表面。

然而，必须应用非平凡约束，因为仅仅在黑色背景上生成一个随机斑点是不够的：它最终可能会出现在UV贴图岛之外，对对象没有影响，或者更糟糕的是，出现在两个岛之间的边缘，导致多个形状虚假的异常。

UV 贴图岛是 3D 模型展开成 2D 纹理坐标时形成的一个个区域。随机斑点可能生成在 UV 贴图岛之外，那就无法作用到对应的 3D 模型表面，达不到添加异常的目的；更严重的是，若斑点出现在两个 UV 贴图岛之间的边缘位置，会产生形状不真实、不符合实际缺陷特征的虚假异常。

相反，我们导出物体在Blender中的原始UV贴图，计算有效区域的二进制掩膜，即所有连接组件的并集，并为它们计算包围矩形的最大值。然后生成一个随机blob，并将其缝合到随机选择的一个入站矩形中。这确保了异常始终完全可见，并且永远不会位于UV贴图岛屿的边界上。
图1展示了所达到的质量：修改3D模型可以产生比在2D渲染上人为应用缺陷更逼真的图像，同时仍然能够在没有人为干预的情况下自动生成像素级的地面真实掩模。

4.5 Eyecandies 数据集规模

每个糖果类别总共包含1500个样本，分别分为训练集、验证集和测试集，其中训练集有1000个样本，验证集有100个样本，测试集有400个样本。训练集和验证集仅提供正常样本，而一半的测试样本是有缺陷的糖果。此外，这200个异常样本包含四种异常类型的均衡混合，每种类型各有40个示例，总共160个，其余40个包含所有可能的异常组合。

5 Experiments 实验

5.1 Eyecandies数据集上AD方法的评估，且结果与MVTec AD数据集上的比较

首先，我们在Eyecandies数据集上评估了现有的异常检测（AD）方法，并将结果与在MVTec AD数据集上得到的结果进行了比较。

5.1.1 实验采用的AD方法

在表1中，报告了接受者操作特征曲线下面积（AU - ROC）。对于Gaussian Mixture（高斯混合模型）Ganomaly (G[2])、Deep Feature Kernel Density Estimation（深度特征核密度估计） [4]、Probabilistic Modeling of Deep Features（深度特征概率建模） [1]、Student - Teacher Feature Pyramid Matching（师生特征金字塔匹配） [7] 以及PaDiM [15] 这些方法，均在Anomalib框架 [3] 中运行。
在这里插入图片描述

5.1.2 Eyecandies数据集有效

我们注意到在MVTec AD和Eyecandies数据集上的性能之间存在显著相关性，这表明我们提出的方法虽然是合成的，但对于评估异常检测方法是一种有效的途径。

5.1.3 Eyecandies数据集复杂性有所增加

此外，除了Ganomaly[2]外的所有方法在Eyecandies数据集上训练和测试时性能都大幅下降，这证明了在真实世界常用的异常检测数据集（如MVTec AD ）上任务的复杂性有所增加。

5.2 Eyecandies数据集在3D AD上的实验

为了理解3D数据对异常检测（AD）任务的贡献，我们在Eyecandies数据集的十个类别上分别训练了不同的深度卷积自动编码器。

5.2.1 模型训练目标和结果

模型的训练目标是重建数据集中的正常样本，在测试时，将正常样本和异常样本都输入网络。由于网络在训练过程中只见过无缺陷的数据，因此我们预期它会在异常区域产生较大的重建误差。这样，除了图像级别的指标外，还可以通过计算输入图像与其重建图像之间的L1距离（在图像通道上取平均值）来得到每个像素的异常分数。类似地，图像级别的异常分数计算为每个像素分数中的最大值。

5.2.2 模型架构设置

该模型由两个对称部分组成，即编码器和解码器，通过一个线性全连接瓶颈层连接。每个编码器模块相对于前一个模块，滤波器数量增加一倍，同时通过步幅卷积将空间分辨率减半。另一方面，每个解码器模块将滤波器数量减半，同时将空间分辨率加倍。
编码器和解码器均由四个模块组成，瓶颈层的滤波器数量为32。模型初始输入大小为3×256×256，通过全连接层映射到256维的潜在空间，其中全连接层的输入为256×16×16。然后，解码器将这个特征向量扩展回256×16×16，并恢复到初始尺寸。内部模块的结构如图5所示。

线性全连接瓶颈层是神经网络中的一种结构。“线性”指其运算为线性变换，形式如 $y = W x + b$ 。
“全连接”意味着层内神经元与前层所有神经元相连。
“瓶颈层”则是维度相对少，起信息“压缩”作用的层。它能在减少参数和计算量的同时，提取关键特征，常被用于优化网络架构。

在这里插入图片描述

5.2.3 数据输入与增强

5.2.3.1 数据输入

对于每个物体类别，我们使用不同的输入组合来训练自动编码器：RGB图像、RGB + 深度图像（RGBD）、RGB + 深度图像 + 法向图（RGBDN），所有输入均下采样至256×256像素的固定分辨率。
为此，将相同分辨率的彩色图像、深度图和法向图进行拼接，简单地沿通道维度连接它们，相应地改变自动编码器的输入和输出通道数。因此，在仅使用RGB图像时，通道总数为3；添加深度图时为4；同时使用深度图和法向图时为7。
在使用深度图时，通过逐图像的最小 - 最大归一化将数值重新缩放到0到1之间。

5.2.3.2 数据增强

在数据增强方面，我们使用了以下随机变换：

以0.9的概率进行 - 5%到5%之间的随机平移；
以0.9的概率进行0%到5%之间的随机缩放；
以0.9的概率进行 - 2°到2°之间的随机旋转
以0.9的概率进行HSV颜色抖动（仅适用于RGB图像）；）。

5.2.4 损失函数与训练设置

按照文献[10]，我们将损失函数定义如下：
$L(I,\hat{I}) = L_{L1}(I,\hat{I}) + L_{SSIM}(I,\hat{I})\quad (1)$
其中 $I$ 是自动编码器的输入， $\hat{I}$ 是其重建结果， $L_{L1}(I,\hat{I})=\left \| I - \hat{I} \right \|_{1}$ 是重建误差， $L_{SSIM}$ 是文献[10]中定义的多尺度结构相似性。
SSIM窗口大小设置为7像素。当RGB图像、深度图和法向图拼接在一起时，损失计算为所有单个损失分量之和：
$L_{RGBDN}(I,\hat{I}) = L(RGB,\hat{RGB}) + L(D,\hat{D}) + L(N,\hat{N}) \quad (2)$
其中 $RGB$ 、 $D$ 和 $N$ )分别是彩色图像、深度图和法向图，它们各自的重建结果为 $\hat{RGB}$ 、 $\hat{D}$ 和 $\hat{N}$ 。所有模型均训练5000个轮次，使用Adam优化器，学习率为0.001， $\beta_1$ 设置为0.9， $\beta_2$ 设置为0.999。最小批量大小设置为32，如果最后一个轮次的批量大小不足，则通过删除每个历元的最后一批来强制执行drop。

5.2.5 实验结果

结果分别汇总在表2和表3中，图像和像素级的AUROC分数表明，仅在RGB数据上训练的简单自动编码器难以有效区分大多数物体类别的正常样本和异常样本。

5.2.5.1 表现较差的糖果类和原因

在糖果棒（Candy Cane）和榛子松露巧克力（Hazelnut Truffle）上表现最差，其结果与随机分类器相当。在前一种情况下，尽管重建质量尚可，但异常可能太小，无法被有效检测到。在后一种情况下，检测失败可能是由于重建质量较低，这是因为其粗糙的表面和已知的卷积自动编码器对高频空间特征的不敏感性所致。
相反，小熊软糖（Gummy Bear）表面光滑有光泽，边缘被明亮的光晕包围，使得从彩色图像重建几乎不可能。

5.2.5.2 表现可接受的糖果类和原因

实际上，我们仅在具有规则且不透明表面的物体（如巧克力饼干（Chocolate Cookie）和棉花糖（Marshmallow））上获得了可接受的结果，因此异常在这些物体上更容易出现，并且尺寸也相对较大。

5.3 三类数据源对网络性能的影响：彩色、深度、法向

5.3.1 深度图的影响

在重建任务中添加深度图对网络性能影响不大。为理解其背后的多种原因，首先要考虑只有两种异常类型，即凸起和凹痕，对物体深度有影响，因为颜色和法线变化不会影响物体的几何形状。

5.3.1.1 凸起或凹陷的平均高度非常小，与轮廓轻微重建错位误差相比可忽略不记

此外，如图6所示，如果与物体的大小相比，凸起或凹陷的平均高度非常小，因此与在物体轮廓上发现的误差相比，异常区域的重建误差通常可以忽略不计，而简单的自动编码器在物体轮廓上常常产生轻微错位的形状。
在这里插入图片描述

5.3.1.2 任务复杂使得彩色图重建质量下降

而且，添加深度信息会使输入和输出任务比仅使用RGB图像的情况更复杂，这最终可能导致彩色图像重建质量下降，甚至对大多数物体而言性能没有提升，因为颜色纹理通常更具信息量。

5.3.2 法向图的影响

5.3.2.1 对凸起、凹痕和表面法向异常至关重要，大幅提升性能

将法向图引入重建任务几乎在所有物体类别上都极大地提升了性能。尽管法向图无法直接检测颜色改变等异常，但事实证明，它们对于检测凸起、凹痕和表面法向异常至关重要。

5.3.2.2 简化重建任务

此外，与RGB图像不同，法向图不受物体纹理中光泽材质、反射和尖锐边缘的影响，从而简化了重建任务。

5.4 缓解异常在误差图中可见度低的问题

5.4.1 对深度图重建得到的误差图进行深度截取

我们尝试缓解深度图异常在误差图中可见度低的问题，方法是对深度图重建（上述第一种）得到的误差图进行深度值截取，截取范围在固定的上下限之间（如图6所示）。这有助于降低物体像素与背景像素之间的对比度，进而减少重建误差。
选择上下限的原则是，在不影响属于物体的像素的前提下，使最终的深度范围尽可能小，且始终保证下限小于物体上最靠近相机的可见点，上限为最远可见点。

5.4.2 实验：RGB - cD和RGB - cD - N

我们在与之前完全相同的设置下，重复了RGB - D和RGB - D - N实验，并对深度图进行了截取，结果汇总在表2和表3中 “RGB - cD” 和 “RGB - cD - N” 列。
在这里插入图片描述

5.4.2.1 RGB - D和RGB - cD

对于RGB - D和RGB - cD，我们可以观察到深度截取在大多数物体类别上都带来了略微更好的性能，在图像和像素级AUROC方面均有体现。

5.4.2.2 RGB - D - N和RGB - cD - N

当同时使用法向图时，深度范围截取的优势似乎相关性较小，法向图的优势在10个类别中仅有6个类别体现出图像级AUROC的提升，而像素级指标仅有2个类别得到改善。

6 Conclusions And Future Works 结论和未来工作

6.1 结论

我们提出了Eyecandies，这是一个用于异常检测和定位的新型合成数据集。与现有数据集不同，对于每个独特的物体实例，我们提供了RGB彩色图像以及深度图和法向图，这些数据是在多种光照条件下采集的。
我们展示了独特的糖果是如何从参数化参考模型生成的，具有高度逼真的外观和较大的类内差异。同样，随机异常被仔细地添加到颜色、深度和法向数据中，然后被重新投影到二维，从而在无需人工干预的情况下获得像素级精确的真实掩膜。
我们的实验表明，结合颜色和3D数据可能为解决异常检测任务开辟新的可能性，并且我们的数据集对于验证此类新结果至关重要。

6.2 未来工作

关于未来工作，我们认为有四个主要研究方向。
①首先，我们应该通过在目标物体周围移动相机来扩展数据集，从而从多个视角生成数据。
②其次，我们可以添加逻辑异常，例如缺失部分，并给出合理的真实掩膜以及清晰的评估协议。
③第三，我们可以生成特定物体的缺陷，例如糖果棒上的错误条纹，但具有挑战性的是要使整个流程完全自动化。
④最后，我们可能会对噪声 noise、瑕疵 artifacts和变形 deformations进行建模，这些是由采集设备引入的。