1.26 深度神经网络和表格数据:综述(3.5的参考文献[19])

文献来源:

V. Borisov, T. Leemann, K. Seßler, J. Haug, M. Pawelczyk, G. Kasneci, Deep
neural networks and tabular data: A survey, 2021, arXiv preprint arXiv:2110.
01889 .

此文为3.5的参考文献[19]

摘要

异构表格数据是最常用的数据形式,对于许多关键和计算要求高的应用程序是必不可少的。在同构数据集上,深度神经网络一再显示出优异的性能,因此被广泛采用。然而,它们对用于推理或数据生成任务的表格数据的适应仍然具有很大的挑战性。为了促进该领域的进一步发展,本工作概述了最先进的表格数据深度学习方法。

我们将这些方法分为三组:数据转换、专用架构和正则化模型。对于每一组,我们的工作提供了主要方法的全面概述。此外,我们还讨论了用于生成表格数据的深度学习方法,并概述了解释表格数据上的深度模型的策略。因此,我们的第一个贡献是解决上述领域的主要研究流和现有方法,同时突出相关的挑战和开放的研究问题。我们的第二个贡献是提供了传统机器学习方法与11种深度学习方法在五种流行的现实世界中不同大小和不同学习目标的表格数据集的经验比较。

我们的结果,我们已经公开提供作为竞争性基准,表明基于梯度增强树集成的算法在监督学习任务上仍然在很大程度上优于深度学习模型,这表明表格数据的竞争性深度学习模型的研究进展停滞不前。据我们所知,这是第一次深入概述表格数据的深度学习方法;因此,这项工作可以作为一个有价值的起点,指导研究人员和实践者对表格数据的深度学习感兴趣。

索引术语:基准、深度神经网络、离散数据、异构数据、可解释性、概率建模、调查、表格数据、表格数据生成。

延申阅读

【regularization】正则化是什么?狂飙告诉你_哔哩哔哩_bilibili

正规化和正则化的区别-CSDN博客

归一化、标准化、正则化 - 知乎

I. INTRODUCTION

不断增加的计算资源和大型标记数据集的可用性加速了深度神经网络的成功[1],[2]。特别是,基于卷积、循环机制[3]、[4]或Transformer[5]的架构在许多领域取得了前所未有的性能。尽管深度学习方法在同构数据(如图像、音频和文本数据)的分类或数据生成任务上表现出色,但表格数据仍然对深度学习模型构成挑战[6],[7],[8]。与图像或语言数据相比,表格数据是异构的,导致密集的数字和稀疏的分类特征。此外,特征之间的相关性比通过图像或语音数据中的空间或语义关系引入的相关性更弱。因此,有必要在不依赖空间信息的情况下发现和利用关系[9]。因此,Kadra等人[10]将表格数据集称为深度神经网络模型的“最后一座未攻克的城堡”。

异构数据是最常用的数据形式[8],它在许多关键应用中无处不在,例如基于患者病史的医疗诊断[11],[12],[13],金融应用的预测分析(例如,风险分析,信用评估,投资策略推荐和投资组合管理)[14],点击率(CTR)预测[15],用户推荐系统[16],[17],客户流失预测[18],网络安全[19]、欺诈检测[20]、心理学[21]、异常检测[22]、[23]、[24]等。

在所有这些应用程序中,预测性能和健壮性的提升可能对最终用户和提供此类解决方案的公司都有相当大的好处。同时,这需要处理许多与数据相关的缺陷,例如噪声、不精确、不同的属性类型和值范围,或者缺失值问题和隐私问题。

与此同时,深度神经网络与传统的机器学习方法相比具有多种优势。首先,这些方法非常灵活[25],允许高效和迭代训练,对AutoML特别有价值[26],[27]。其次,使用深度神经网络生成表格数据是可能的,例如,可以帮助缓解类不平衡问题[28]。第三,神经网络可以用于多模态学习问题,其中表格数据可以是许多输入模式之一[29],[30],用于表格数据蒸馏[31],[32],用于联邦学习[33],以及更多场景。

成功部署数据驱动的应用程序需要解决几个任务,其中我们确定了三个核心挑战:1)推理;2)数据生成;3)可解释性。最关键的任务是推理,即根据过去的观察做出预测。虽然一个强大的预测模型对于前一段提到的所有应用都是至关重要的,但表格数据和深度神经网络之间的相互作用超出了简单的推理任务。在训练预测模型之前,通常需要对训练数据进行预处理。这就是数据生成发挥关键作用的地方,因为标准部署步骤之一涉及缺失值的插入[34],[35]和数据集的再平衡[36],[37](即,平衡不同类别的样本量)。此外,由于隐私问题,可能根本无法使用实际数据,例如在金融或医疗应用中[38],[39]。因此,为了解决数据预处理和隐私挑战,概率表格数据生成是必不可少的。最后,随着加州消费者隐私法(CCPA)[40]和欧洲通用数据保护条例(EU GDPR)[41]等更严格的数据保护法律的出台,这两项法律都规定了自动决策系统的解释权(例如,以形式或追索权的形式[42]),可解释性正成为用于表格数据的预测模型的一个关键方面[43],[44]。在部署过程中,可解释性方法也是模型调试和审计的重要工具[45]。

显然,除了推理、生成和可解释性的核心挑战之外,还有其他几个重要的子领域,例如处理数据流、分布转移,以及不应忽视的隐私和公平考虑。然而,为了浏览大量的文献,我们将重点放在确定的核心问题上,并彻底回顾这项工作的最新进展。我们将在本次调查的最后简要讨论剩余的主题。

除了回顾当前文献外,我们认为有必要对异构表格数据的现有深度学习方法进行详尽的比较,以便将报告的结果置于上下文中。各种各样的基准测试数据集和不同的设置往往阻碍了跨论文结果的比较。此外,深度学习模型的重要方面,如训练和推理时间、模型大小和可解释性,通常没有被讨论。我们的目标是通过将所调查的推理方法与经典但非常强大的基线(如XGBoost[46])进行比较来弥合这一差距。我们开放代码,允许研究人员复制和扩展我们的发现。

总之,本调查的目的是提供以下内容:1)对现有关于表格数据深度学习的科学文献进行全面回顾;2)对异构表格数据分类和回归任务的可用方法进行分类分类;3)介绍表格数据生成的最新技术和有前途的路径;4)综述了现有表格数据深度模型的解释方法;5)在多个现实世界异构表格数据集上对传统机器学习方法和深度学习模型进行了广泛的实证比较;6)讨论了深度学习在表格数据上有限成功的主要原因;7)与表格数据深度学习相关的公开挑战列表。

因此,本调查的结构如下。我们将在第二节讨论相关工作。为了向读者介绍该领域,在第三节中,我们提供了关键术语的定义,简要概述了该领域的历史,并提出了使用表格数据进行深度学习的当前方法的统一分类。第四节介绍了使用深度神经网络对表格数据建模的主要方法。第五节介绍了使用深度神经网络生成表格数据的概述。第六节概述了表格数据深度模型的解释机制。 在第七节中,我们对机器学习和深度学习方法在现实世界数据上进行了广泛的经验比较,其中还涉及模型大小、运行时间和可解释性。 在第八节中,我们总结了该领域的现状,并给出了未来的展望。最后,在第九节结束之前,我们概述了几个开放的研究问题。

II. RELATED WORK

据我们所知,目前还没有专门研究深度神经网络在表格数据中的应用,涉及监督学习和无监督学习、数据综合和可解释性等领域。先前的作品涵盖了其中的一些方面,但没有一个系统地讨论了现有的方法在这个调查的广度。然而,有一些作品涵盖了该领域的部分内容。Hancock和Khoshgoftaar[47]对分类数据编码作为深度神经网络预处理步骤的常用方法进行了全面分析。作者比较了在各种表格数据集和不同深度学习架构上分类数据编码的现有方法。我们在第IV-A1节中讨论了关键的分类数据编码方法。

Sahakyan等人[43]最近的一项调查总结了表格数据背景下的解释技术。因此,我们不会在本文中详细讨论表格数据的可解释机器学习。然而,为了完整起见,我们在第六节中介绍了一些最相关的作品,并强调了这一领域的开放挑战。

Gorishniy等人[48]在广泛的数据集上对表格数据的大量最先进的深度学习方法进行了经验评估。He等人[49]证明了具有类似ResNet架构的调谐深度神经网络模型在表格数据方面的性能与一些最先进的深度学习方法相当。

最近,schwartz - ziv和Armon[8]发表了一项研究,研究了几种不同的表格数据深度模型,包括TabNet[6]、NODE[7]和Net-DNF[50]。此外,他们将深度学习方法与梯度增强决策树(GBDT)算法在准确性、训练努力、推理效率和超参数优化时间方面进行了比较。他们观察到深度模型在他们选择的数据集上有最好的结果,然而,一般来说,没有一个深度模型可以胜过所有其他模型。

深度模型受到了gbdt的挑战,这使得作者得出结论,使用深度神经网络进行高效的表格数据建模仍然是一个开放的研究问题。面对这些证据,我们的目标是将未来研究推理问题的必要背景以及生成和可解释性的相互交织的挑战整合到一个工作中。

3表格数据和深度神经网络

A. Definitions

在本节中,我们给出本工作中使用的中心术语的定义。我们还提供了指向原始作品的更详细的方法解释。

本研究的关键概念是(深度)神经网络。除非另有说明,否则我们使用此概念作为前馈网络的同义词,如[2]所述,并在偏离此概念时命名具体模型。深度神经网络定义映射f

它学习模型参数W的值(即神经网络的“权重”),从而获得真实的潜在和未知函数f的最佳近似值。在这种情况下,x是来自元组{(xi, yi)}i∈i的数据集的多维数据样本(即x∈Rn),其对应的目标y(其中对于k个类,y∈Rk,对于回归任务,y∈R)。如果输入信息在没有任何反馈连接的情况下以一个方向流向输出,则称为前馈网络。

在整个调查中,我们主要关注通常包含各种属性类型的异构数据。这些包括不同类型的连续和离散属性(例如,二进制值、序数值和高基数分类值)。这从根本上不同于同构数据模式,例如图像、音频或文本数据,其中只有一种特征类型。

分类变量是一种特别重要的属性类型。根据Lane的定义[51],分类变量是定性值。它们“并不意味着一个数字顺序”,不像定量值那样是“用数字来衡量的”。通常,分类变量可以从有限的一组值中选取一个。典型的分类变量包括性别、user_id、product_type和topic。

表格数据,有时也被称为结构化数据[52],是异构数据格式的子类别,通常以表[53]的形式呈现,数据点为行,特征为列。总而言之,对于这项工作的范围,我们将具有固定数量的连续或分类特征的数据集称为表格。每个数据点可以理解为表中的一行,或者从概率的角度来看,可以理解为未知联合分布中的一个样本。表1提供了一个5行异构表格数据的说明性示例。

表1一个异构表格数据集的例子。在这里,我们展示了从成人数据集中选择变量的五个样本[54]。第vii-a节提供了该数据集的进一步细节

B.表格数据深度学习简史

表格数据是用于统计分析的最古老的数据形式之一。在文本、图像和声音的数字化收集成为可能之前,几乎所有的数据都是表格式的[55]、[56]、[57]。因此,它是早期机器学习研究的目标[58]。然而,深度神经网络在数字时代变得流行起来,并在同质数据的关注下得到了进一步的发展。近年来,人们提出了各种监督式、自监督式和半监督式深度学习方法,这些方法明确地解决了表格数据建模的问题。早期的工作主要集中在预处理的数据转换技术[59],[60],这在今天仍然很重要[47]。

一个巨大的刺激因素是电子商务的兴起,它需要新颖的解决方案,尤其是在广告方面[15],[61]。这些任务需要对具有许多分类变量的异构数据集进行快速准确的估计,传统的机器学习方法并不适合(例如,具有高基数的分类特征可能导致非常稀疏的高维特征向量和非鲁棒模型)。因此,研究人员和数据科学家开始寻找更灵活的解决方案,例如,基于深度神经网络的解决方案,可以捕获数据中复杂的非线性依赖关系。

其中,点击率预测问题受到了广泛关注[15],[62]。提出了各种各样的方法,其中大多数依赖于专门的神经网络架构来处理异构表格数据。havitt和Segal[63]引发了最近的一系列研究,基于正则化可以提高深度神经网络在表格数据上的性能[10]的想法而发展起来。这导致了正则化方法研究的加强。

由于基于注意的方法取得了巨大的成功,例如文本[64]和视觉数据[65],[66]上的transformer,研究人员最近也开始将基于注意的方法和自监督学习技术应用于表格数据。在将transformer架构引入表格数据领域后[6],许多研究工作都集中在可以成功应用于非常大的表格数据集的transformer架构上。

C.学习表格数据的挑战

正如我们在第二节中提到的,在处理表格数据时,与更传统的机器学习方法(例如,基于树的方法)相比,深度神经网络通常表现不佳。然而,通常不清楚为什么深度学习不能达到与图像分类和自然语言处理等其他领域相同的预测质量水平。下面,我们找出并讨论四个可能的原因。

1)低质量的训练数据:

数据质量是现实世界表格数据集的一个常见问题。它们通常包括缺失值[34]、极端数据(异常值)[67]和错误或不一致的数据[68],并且相对于由数据生成的高维特征向量而言,它们的总体尺寸较小[69]。此外,由于数据收集的昂贵性质,表格数据经常是类不平衡的。这些挑战影响到所有的机器学习算法;然而,大多数现代基于决策树的算法可以通过寻找适当的近似值和拆分值来内部处理缺失值或不同/极端变量范围[46],[70],[71]。

2)缺失或复杂的不规则空间依赖关系:

在表格数据集中,变量之间往往没有空间相关性[72],或者特征之间的依赖关系相当复杂和不规则。在处理表格数据时,必须从头开始学习其特征之间的结构和关系。因此,流行的同构数据模型(如卷积神经网络)中使用的归纳偏差不适合对这种数据类型建模[50],[73],[74]。

3)对预处理的依赖:

同构数据上深度学习的一个关键优势是它包含了一个隐式表示学习步骤[2],因此只需要少量的预处理或显式特征构建。然而,对于表格数据和深度神经网络,性能可能强烈依赖于所选择的预处理策略[75]。处理分类特征仍然特别具有挑战性[47],并且很容易导致非常稀疏的特征矩阵(例如,通过使用单热编码方案)或引入先前无序值的综合排序(例如,通过使用序数编码方案)。最后,深度神经网络的预处理方法可能会导致信息丢失,导致预测性能下降[76]。

4)单个特征的重要性:

虽然通常改变图像的类别需要许多特征(即像素)的协调变化,但分类(或二元)特征的最小可能变化可以完全颠覆表格数据的预测[63]。与深度神经网络相比,决策树算法可以通过选择单个特征和适当的阈值(即分裂)值并“忽略”数据样本的其余部分来非常好地处理不同的特征重要性。Shavitt和Segal[63]认为,个体权重正则化可以缓解这一挑战,并激励在这一方向上进行更多的工作[10]。

牢记这四个基本挑战,我们继续组织和讨论为应对这些挑战而制定的战略。我们首先开发一个合适的分类法。

D.统一分类

在本节中,我们将介绍允许对字段进行统一视图的方法分类。我们将基于表格数据文献的深度学习工作分为三大类:数据转换方法、专用架构和正则化模型。在图1中,我们概述了表格数据的深度学习方法分类。

1)数据转换方法:

第一组方法对分类数据和数值数据进行转换。通常这样做是为了使深度神经网络模型更好地提取信息信号。这组方法不需要新的体系结构或对现有数据处理流程的调整。然而,转换步骤是以增加预处理时间为代价的。这可能是高负载系统的一个问题[77],特别是在具有高基数的分类变量和不断增长的数据集大小的情况下。我们可以进一步将这一领域细分为单维编码和多维编码。前一种编码方法用于独立转换每个特征,而后一种编码方法将整个记录映射到另一种表示。

2)专业架构:

大部分作品研究了专业架构,并建议表格数据需要不同的深度神经网络架构。两种类型的架构特别重要:混合模型融合了经典的机器学习方法(例如,决策树)和神经网络,而基于transformer的模型依赖于注意力机制。

3)正则化模型:

最后,正则化模型组声称深度学习模型在表格数据上表现不佳的主要原因之一是它们的极端非线性和模型复杂性。我们相信,我们的分类法可以帮助从业者找到可以轻松集成到他们现有工具链中的选择方法。例如,应用数据转换可以在维护当前模型体系结构的同时提高性能。相反,使用专门的体系结构,数据预处理流程可以保持完整。因此,提出了强正则化方案作为解决方案。它们主要以专用损失函数的形式实现。

4.表格数据的深度神经网络

在本节中,我们将根据第三节中提出的分类法,讨论在表格数据上使用深度神经网络进行分类和回归任务。我们在表II中概述了该研究领域现有的深度学习方法,并详细检查了三种方法类别:数据转换方法(参见第IV-A节)、基于架构的方法(参见第IV-B节)和基于正则化的模型(参见第IV-C节)。

A.数据转换方法

大多数传统的基于表格数据的深度神经网络方法都属于这一类。有趣的是,数据预处理在计算机视觉中起着相对次要的作用,尽管该领域目前由深度学习解决方案主导[2]。转换表格数据有许多不同的可能性,每种可能对学习结果产生不同的影响[47]。

1)单维编码:使用表格数据进行深度学习的关键障碍之一是分类变量。由于神经网络只接受实数向量作为输入,这些值必须在模型使用它们之前进行转换。因此,第一类方法试图以适合深度学习模型的方式对分类变量进行编码。

6.表格数据深度学习的解释机制

可解释机器学习关注的是为复杂的机器学习模型提供解释的问题。随着越来越严格的自动化决策法规[41]以及在金融和医疗保健等高风险领域采用机器学习模型[45],[153],[154],可解释性正成为一个关键问题。为了实现这一目标,不同的研究流派遵循不同的可解释性范式。其中,特征归因方法和反事实解释是两种流行的形式[155],[156],[157]。由于这些技术对研究人员和实践者都越来越重要,我们将在下面回顾这些方法。

A. 特性突出解释

局部输入归因技术试图逐个实例解释机器学习模型的行为。这些方法旨在通过为输入特征分配重要性分数来突出输入对预测的影响。一些流行的模型解释方法旨在构建可通过设计解释的分类模型[158],[159],[160]。这通常是通过强制深度神经网络模型局部线性来实现的。此外,如果模型的参数是已知的并且可以访问,那么解释技术可以使用这些参数来生成模型解释。对于这种设置,已经提出了基于相关性传播的方法,例如[161],[162]和基于梯度的方法,例如[163],[164],[165]。在无法访问神经网络参数的情况下,模型不可知的方法可以证明是有用的。这组方法试图通过应用代理模型来解释模型的局部行为[116],[166],[167],[168],[169],这些模型可以通过设计来解释,并用于解释黑箱机器学习模型的个体预测。为了测试这些黑盒解释技术的性能,Liu等人[170]提出了一个基于python的基准库。

8.讨论和未来展望

在本节中,我们总结了我们的研究结果,并讨论了表格数据深度学习方法的当前和未来趋势(第VIII-A节)。此外,我们还确定了几个可以解决的开放性研究问题,以推动表格式深度神经网络领域的发展(第八章B节)。

A 总结与趋势

1)决策树集成仍然是最先进的:

在对多个数据集的公平比较中,我们证明了基于树集成的模型,如XGBoost、LightGBM和CatBoost,在大多数数据集上的性能仍然优于我们考虑的深度学习模型,并且具有显著减少训练时间的额外优势。尽管XGBoost发表[46]已经六年了,最初的梯度提升论文[95]发表已经20多年了,但我们可以说,尽管在深度学习方面做出了很多研究努力,但表格数据的最新状态基本上没有改变。然而,我们观察到,对于非常大的数据集,基于深度学习的方法仍然能够获得具有竞争力的性能,甚至超过经典模型。总而言之,我们认为可能有必要从根本上重新定位该领域。目前,使用目前的深度学习技术是否有利于表格数据的问题通常可以得到否定的回答。这尤其适用于应用程序中常见的小型异类数据集。因此,与其提出越来越复杂的模型,我们认为需要对这种业绩差距的原因有更深刻的理解。

2)统一基准:

此外,我们的结果强调了统一基准的必要性。对于如何进行公平和高效的比较,机器学习界并没有达成共识。Shwartz-Ziv和Armon[8]表明,基准数据集的选择可以对性能评估产生不可忽视的影响。虽然我们为实验选择了具有不同特征的常见数据集,但不同的数据集或超参数选择可能会导致不同的结果,例如编码使用(例如,对分类变量进行一次热编码)。由于数据集的数量过多(在表II列出的18件作品中,使用了100多个不同的数据集),因此有必要制定标准化的基准程序,以确定与最先进技术相关的重大进展。通过这项工作,我们还提出了一个针对表格数据的深度学习模型的开源基准。对于表格数据生成任务,Xu等人。[130]提出了一个使用人工数据集和真实世界数据集的合理评价框架(第五-B节),但研究人员还需要就这一分领域的共同基准达成一致。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值