NeurIPS 2019 | 谷歌发布新方法机器学习如何做好分布外异常检测

对于机器学习来说,区分异常或显著不同的数据是很重要的。在NeurIPS 2019论文中,Google提出并发布了一个真实的基因组序列OOD检测基准数据集,然后提出了一个基于似然比的解决方案,可以显著提高OOD检测的准确性。

背景

为了成功地为深度学习科学家部署机器学习系统,该系统需要能够区分异常数据或与训练中使用的数据有显著不同的数据。

由于深度神经网络分类器可以将分布外(奇数)输入以高置信度在分布内分类,因此区分异常值或显著不同的数据是很重要的。当我们使用这些预测为实际决策提供基础时,异常数据检测将特别重要。

例如,将机器学习模型应用于基于基因组序列的细菌检测是一个具有挑战性的实际应用。细菌检测对脓毒症等传染病的诊断和治疗以及食源性病原体的鉴定至关重要。

近年来,随着新细菌种类的不断发现,虽然基于已知分类训练的神经网络分类器通过交叉验证取得了较高的测量精度,部署模型仍然具有很大的挑战性,因为真实的数据在不断演变,不可避免地会包含一个在以前的训练数据中从未出现过的基因组(OOD输入)。

图1:近年来,新的细菌种类逐渐被发现。将已知的分类数据输入到基于已知分类数据训练的分类器中,由于输入的分类数据是已知的,可以获得较高的精度,但它可能会将未知分类数据与已知分类数据(如奇数数据)混在一起,并且具有很高的可信度。

NeuroIPS2019论文“Likelihood Ratios for Out-of-Distribution Detection”论文中,谷歌受到了上述新细菌物种检测等实际问题的启发,提出并发布了面向基因组检测的真实基准数据集的OOD。

团队信息

他们使用基于基因组序列的生成模型测试现有的OID检测方法,并且发现似然值(即,使用不均匀分布数据估计的分布数据输入的模型概率)通常是不正确的。在最近的图像深度生成模型研究工作中,他们也观察到了这种现象,并通过统计背景效应解释了这种现象,然后提出了一种基于似然比的解决方案,可以显著提高OOD检测的精度。

一、为什么密度模型不能应用于OOD检测?

为了模拟实际问题并系统地评估不同的方法,他们利用NCBI开放的原核目录基因组序列数据建立了一个新的细菌数据集。

为了模拟测序数据,他们将基因组分成250个短序列长度的碱基对,通常用于当前的测序技术中。然后,根据发现日期将分布内外的数据进行分离,从而将截止时间之前发现的细菌物种定义在分布内,之后发现的细菌物种定义为分布外(OOD)。

然后,他们训练了一个基于分布中基因组序列的深度生成模型,并通过绘制似然曲线测试了该模型区分分布内外数据的能力。OOD序列的似然直方图与分布内序列的似然直方图高度一致,说明生成模型无法区分这两类OOD检测结果。

在图像深度生成模型的早期研究中获得了类似的结论(相关阅读参考:https://arxiv.org/pdf/1810.09136.pdf)。例如,使用时尚MNIST数据集(由衣服和鞋子的图像组成)训练PixelCNN++模型比MNIST数据集(包括数字0-9的图像)中的OOD图像分配了更高的似然值。

图2左:分布内外(OOD)基因组序列的似然值直方图。在分布和OOD基因组序列中,似然值无法区分。右:时尚MNIST数据集训练模型,MNIST数据集估计似然直方图。模型在OOD(MNIST)图像上的似然值比在分布图像上的似然值高。

在研究这个失效模型时,他们发现背景统计可能会影响似然值的计算。为了更直观地理解这种现象,假设输入由两部分组成:

(1)以背景统计为特征的背景成分

(2)以特定于分布内数据的模式为特征的语义成分。

例如,可以将MNIST图像建模为背景加语义。人类在解读图像时,很容易忽略背景信息,而将注意力集中在语义信息上,如下图中的“/”符号。然而,当计算图像中所有像素的似然值时,计算结果包括语义像素和背景像素。尽管它们只需要使用语义似然值来进行决策,但大多数原始似然值结果可能是背景成分。

图3左上角:时尚MNIST的示例图像。左下:MNIST的示例图像。右图:MNIST图像中的背景和语义成分。

二、OOD检测的似然比

他们提出了一种似然比方法,该方法去除背景效应,并侧重于语义成分。

首先,受基因突变的启发,他们采用扰动输入法训练背景模型,随机选择输入值的位置,用另一个等概率值代替。对于成像,他们从256个可能的像素值中随机选择输入值;对于DNA序列,他们从四个可能的核苷酸(A、T、C或G)中选择输入值。在这个过程中,适量的干扰会破坏数据的语义结构,导致只捕获背景。

然后,计算整个模型和背景模型之间的似然比,去掉背景成分,从而只保留语义似然值。似然比是背景对比度得分,即捕捉语义和背景对比度的含义。

为了定性评估似然值和似然比之间的差异,他们绘制了时尚MNIST数据集和MNIST数据集中每个像素的似然值和似然比值,并创建了与图像大小相同的热图。

这使他们能够直观地看到哪些像素分别对这两个值贡献最大。从对数似然热图可以看出,对于似然值,背景像素的贡献大于语义像素。

事后看来,这并不奇怪,因为背景像素主要由一系列零组成,所以很容易被模型学习。

MNIST和时尚MNIST热图之间的比较解释了MNIST返回更高的似然值的原因,因为它包含更多的背景像素!相反,似然比结果更关注语义像素。

图4左:时尚MNIST和MNIST数据集的对数似然热图。右图:时尚MNIST和MNIST数据集的似然比热图,值越高的像素阴影越浅。似然值主要由“背景”像素决定,而似然比主要集中在“语义”像素上,因此更适合于OOD检测。

这种似然比方法修正了背景效应。他们基于时尚MNIST对PixelCNN++模型进行训练,然后对MNIST图像集进行OOD检测。实验结果得到了明显的改善,AUROC评分由0.089提高到0.994。

当他们将似然比方法应用于基因组基准数据集的挑战性问题时,与其他12种基线方法相比,该方法表现出了最好的性能。

论文地址或源码下载地址:关注“图像算法”微wx公众号 回复"OOD",不过,他们也表示,虽然似然比方法在基因组数据集上取得了最先进的性能,但距离模型部署到实际应用的高精度要求还有一定的距离。它们鼓励研究人员努力解决这一重要问题,并提高目前的技术水平。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值