法国国家科研中心和加州伯克利大学的团队提出了一种创新方法,利用生成模型作为视觉数据挖掘的有力工具,这项研究成果已在ECCV 2024上发表。

研究团队通过微调条件扩散模型,开发出一种新方法来提取和分析不同数据标签下的典型视觉元素。通过引入一个典型性度量(typicality measure)用于评估视觉元素的代表性。这种“分析-合成”方法大大提高了数据挖掘的可扩展性。

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_数据集

该方法在多个不同类型的数据集上得到验证,包括历史图像、街景和医学图像。特别是在胸部X光图像的疾病定位任务中,这一方法显著提高了准确性。

相关链接

项目主页:https://diff-mining.github.io

论文地址:https://arxiv.org/abs/2408.02752

代码链接:https://github.com/ysig/diff-mining

论文阅读

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_数据挖掘_02

使用扩散模型作为数据挖掘工具

摘要

本文展示了如何使用经过图像合成训练的生成模型作为视觉数据挖掘的工具。我们的见解是,由于当代生成模型学习了训练数据的准确表示,我们可以使用它们通过挖掘视觉模式来总结数据。具体来说,我们表明,在微调条件扩散模型以合成特定数据集中的图像后,我们可以使用这些模型来定义该数据集的典型性度量。该度量评估不同数据标签(例如地理位置、时间戳、语义标签,甚至疾病的存在)的典型视觉元素。这种通过综合分析的数据挖掘方法有两个关键优势。首先,它比传统的基于对应的方法扩展性好得多,因为它不需要明确比较所有视觉元素对。其次,虽然大多数以前的视觉数据挖掘工作都集中在单个数据集上,但我们的方法在内容和规模方面适用于不同的数据集,包括历史汽车数据集、历史人脸数据集、大型全球街景数据集以及更大的场景数据集。此外,我们的方法允许跨类标签转换视觉元素并分析一致的变化。

方法

我们的方法将带有图像级标签(例如时间、地理或场景标签)的数据集作为输入,并生成不同标签的典型元素的视觉摘要,例如使我们能够确定街景全景图位置的共同元素。为了得出这个总结,我们首先在目标数据集上微调条件扩散模型。然后,我们使用微调后的模型通过评估标签条件对模型重建图像的影响程度来定义像素级典型性度量。我们通过聚合补丁上的典型性、选择最典型的补丁并使用从微调模型中提取的特征对它们进行聚类来挖掘视觉元素。

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_AIGC_03

典型元素是调理标签的信息。 我们根据典型性(T)、负典型性(- T)和随机性(Rand.)对前6个补丁进行可视化排序。这两行对应于四个数据集中的不同类。

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_计算机视觉_04

微调的效果。 (a)对于同一张美国图像(顶部),微调改变了微调前(中间)和微调后(底部)典型性的空间分配。(b)这会导致不同的典型聚类(美国),在微调后(底部),会选择邮箱等更典型的元素。(c)将一张从法国(顶部)到泰国(中间)的道路图片翻译时,如果没有进行微调,基础模型中的数据偏差会将道路变成河流并抹去电线杆。在 G^3 数据集上进行微调后(底部),翻译后的图像与原始图像更加一致。

应用

变体总结

在感兴趣的数据集上微调扩散模型可以实现以前的视觉挖掘方法无法实现的进一步应用。一种新的应用是总结不同类别中典型视觉元素的变化。作为案例研究,我们使用 G^3 数据集来发现和总结窗户、屋顶或车牌等共典型元素在不同位置的变化。使用即插即用和我们的微调扩散,我们通过将挖掘数据集中的所有图像转换到所有位置来创建“并行数据集”。定义共典型性度量,使我们能够挖掘视觉元素的最典型转换,然后我们可以通过联合聚类它们的连接特征来聚类。

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_数据集_05

跨国家元素的典型翻译聚类。根据T对翻译后的视觉元素进行排序,并对翻译后的序列进行聚类,得到具有相似变化的元素组。我们从32个选择的集群中显示6个元素。每个序列的源图像都以红色突出显示。

X光定位

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_计算机视觉_06

定位医学图像中的异常区域。 我们在胸部疾病的 CXR8 数据集上对模型进行微调时,可视化了典型性。微调后,我们可以看到典型性得分在每种疾病的专家注释区域(红色框)上的清晰焦点,而预训练的稳定扩散 V1.5 模型的初始预测大多是噪音。图像在微调后按 AUC-PR 排序。我们在最后一行用 ↑ 来划分微调前后的性能。

更多结果

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_AIGC_07

CarDB [24] 视觉元素集群。我们对典型汽车元素的视觉总结展示了特定时期独有的元素和随时间演变的元素。演变中的元素包括车身或前灯的形状,它们是大多数时期 6 个最典型集群的一部分。更具体的元素包括 20 世纪 20 年代的踏板((a),第 6 行)或 20 世纪 30 年代的大型发动机侧格栅((b),第 3、4 和 6 行)。在 20 世纪 80 年代(c),我们观察到两种典型但非常离散的汽车设计风格集群,曲线型法国 2CV(1-4 行)与方形美国雪佛兰风格汽车(5-6 行)并列。

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_计算机视觉_08

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_计算机视觉_09

G^3视觉元素簇。

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_计算机视觉_10

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_数据挖掘_11

地点集群视觉元素。

ECCV 2024|视觉数据挖掘领域重大突破!伯克利提出使用扩散模型作为数据挖掘工具!_计算机视觉_12

结论

我们介绍了一种将扩散模型用作视觉挖掘工具的新方法。我们使用针对条件图像合成进行微调的预训练稳定扩散模型定义了典型性度量。我们使用典型性挖掘了四个数据集的视觉摘要,这些数据集按年份或位置进行标记。我们进一步表明,我们可以使用典型性度量来定位医疗数据中的异常,并将其扩展到发现生成的并行数据集中翻译视觉元素变化的趋势。总之,我们的工作提出了一种新颖的视觉数据挖掘方法,能够扩展到比之前工作中展示的数据集更广泛、更多样化的数据集,正如我们的实验所证明的那样。