Unsupervised Out-of-Distribution Detection with Diffusion Inpainting

Unsupervised Out-of-Distribution Detection with Diffusion Inpainting

摘要

无监督的异常分布检测(OOD)旨在通过仅从未标记的域内数据中学习来识别域外数据。我们提出了一种用于此任务的新方法——提升、映射、检测(LMD),该方法利用了扩散模型的最新进展。扩散模型是一类生成模型。其核心在于学习一种迭代的去噪过程,逐渐将噪声图像映射到其训练流形上。LMD 利用这一直觉来进行 OOD 检测。具体而言,LMD 通过扰乱图像将其从原始流形上提升出来,然后使用扩散模型将其映射到域内流形上。对于域外图像,映射后的图像会与其原始流形有较大的距离,LMD 会相应地将其识别为 OOD。通过大量实验,我们展示了 LMD 在各种数据集上实现了具有竞争力的性能。代码可以在 https://github.com/zhenzhel/lift_map_detect 找到。

1.介绍

OOD 检测旨在分类数据点是否属于特定的领域。这尤其重要,因为机器学习模型通常假设测试时的样本来自与训练数据相同的分布。如果测试数据不符合训练分布,它们可能会无意中产生无意义的结果。在高风险领域,如医学(Hamet & Tremblay, 2017)和刑事司法(Rigano, 2019)中,机器学习模型的使用增加了OOD检测的重要性。例如,如果医生错误地将胸部X光片输入到脑瘤检测器中,模型可能仍然会返回一个预测 - 这将是无意义的,可能会产生误导。

以往的研究已经在不同的设置下研究了 OOD 检测:有监督和无监督。在有监督的设置中,监督可以来自不同的来源。在最知情的设置中,人们假设可以访问代表性的超出领域的样本。这些样本允许人们训练一个OOD检测器作为一个分类器,区分领域内和领域外的数据,并达到高性能(Hendrycks等人,2018; Ruff等人,2019) - 只要超出领域的数据不偏离假设的超出领域的分布。然而,在许多实际应用中,这样的知识是无法获得的。事实上,超出领域的数据可能非常多样化和不可预测。

一个明显更宽松的假设是只需要访问领域内的分类器或类标签。在这个设置下,像Hendrycks & Gimpel (2016); Liang等人(2017); Lee等人(2018); Huang等人(2021); Wang等人(2022)的方法已经取得了有竞争力的性能。尽管信息较少,但这个设置依赖于两个隐含的假设:领域内的数据有明确定义的类别,且有足够多的带有类注释的数据。然而在实践中,这些假设往往不能满足。未标记的数据不需要昂贵的人工注释,因此通常可以大量地方便地获得。理想情况下,人们希望构建一个OOD检测器,该检测器在训练期间只需要未标记的领域内数据。

最近,一类生成模型 - 扩散模型(DM)(Ho等人,2020;Song等人,2020) - 越来越受欢迎。扩散模型制定了两个过程:前向过程通过迭代地向其像素添加噪声,将图像转换为从噪声分布中抽取的样本;反向过程通过从图像中迭代地去除噪声,将噪声图像映射到特定的图像流形。一个专用的神经网络被训练来执行反向过程中的去噪步骤。

在这篇论文中,我们认为我们可以利用扩散模型学习到流形的映射这个属性,并将其转化为一个强大的无监督OOD检测器。直观地说,如果我们将一个图像从其流

  • 30
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黄阳老师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值