结构数据:ARM-Net: Adaptive Relation Modeling Network for Structured Data

ARM-Net: Adaptive Relation Modeling Network for Structured Data

SIGMOD ’21 comp.nus.edu.sg

ABSTRACT

关系数据库是存储和查询结构化数据的标准,从结构化数据中提取见解需要高级的分析。深度神经网络(DNNs)已经在特定的数据类型(如图像)中实现了超人类的预测性能。然而,现有的DNN在应用于结构化数据时可能不会产生有意义的结果。原因是表中属性值的组合之间存在关联和依赖关系,而这些关联和依赖关系不遵循简单的可被DNN轻松模仿的附加模式。这种可能的“交叉特征”的数量是组合的,使得它们在计算上无法建模。此外,学习模型在现实应用中的部署也突出了可解释性的需要,特别是对于高风险的应用,这仍然是DNN关注的另一个问题。

本文提出了面向结构化数据的自适应关系建模网络ARM-Net,以及基于ARM-Net的轻量级关系数据分析框架ARMOR。其关键思想是有选择地动态地对带有交叉特征的特征交互进行建模,首先将输入特征转化为指数空间,然后自适应地确定每个交叉特征的交互顺序和交互权值。我们提出了一种新的稀疏注意机制,在给定输入元组的情况下动态生成交互权值,从而可以明确地对任意阶的交叉特征和选择性过滤的噪声特征进行建模。然后,在模型推理过程中,ARM-Net可以指定用于每个预测的交叉特征,以获得更高的精度和更好的可解释性。我们在真实数据集上的大量实验表明,ARM-Net的性能始终优于现有模型,并为数据驱动的决策提供了更可解释的预测。

1 INTRODUCTION

关系数据库是存储和查询结构化数据的标准,而结构化数据对大多数企业的操作都至关重要。它们捕捉了大量的信息,可以用于数据驱动的决策,以及识别风险和机会。为决策从数据中提取见解需要高级的分析。特别是深度学习,它比统计聚合复杂得多,最近显示出了很大的前景。

深度神经网络(DNNs)在图像、音频和文本数据方面取得了突破。DNNs 如CNNs和LSTM非常适合于它们设计的特定数据类型,例如CNN用于图像,LSTM用于顺序数据。使用DNN的一个主要优点是,它们的采用避免了手工特性工程的需要,然而,当应用于关系表中的结构化数据时,手工特性工程可能不会产生有意义的结果。具体来说,结构化数据的属性值之间存在内在的相关性和依赖性,这种特征交互对于预测分析是必不可少的。尽管理论上DNN可以近似任何目标函数,但传统DNN层捕获的相互作用是累积的。因此,为了模拟这种相乘的交互作用,需要将非线性激活函数叠加在多个层上非常大且难以理解的模型。以往的研究也表明,用DNN隐式建模这种“交叉特征”可能需要大量的隐藏单元,这大大增加了计算成本,同时也使其难以解释。

形式上,结构化数据可以被看作是一个包含n行(元组/样本)和m列(属性/特征)的逻辑表,它是通过核心关系操作(如选择、项目和连接)从关系数据库中提取出来的。预测建模是学习依赖属性y对行列式属性x的函数依赖性(预测函数),即 f: x→y,其中x通常称为特征向量,y为预测目标。结构化数据的预测建模的主要挑战实际上是如何建模属性之间的依赖和关联,称为特征交互,通过交叉特征,通过捕获原始输入特征的交互创建新的特征。具体来说,一个交叉特征可以定义为??,即输入特征与其交互权重的乘积。权重 w i w_i wi表示第i个特征对交叉特征的贡献; w i = 0 w_i=0 wi=0在特征交互中使对应的特征 x i x_i xi失效,交叉特征的交互顺序为其非零交互权值的个数。这种用于关系建模的交叉特征是结构化数据学习的核心,它使学习模型能够表示更复杂的函数,而不仅仅是用于预测分析的输入特征的简单线性聚合。

在关系分析中,DNN的一个首选选择是明确地建模特征交互,从而在特征归因方面通常获得更好的性能和可解释性。然而,可能的特征交互的数量组合起来很大。因此,明确交叉特征建模的核心问题是如何识别正确的特征集,同时确定相应的交互权值。大多数现有的研究通过捕获交互顺序限制在一个预定义的最大整数内的交叉特征来回避这个问题。但是,交叉特征的数量仍然随着最大阶数的增加而呈指数增长。AFN进一步利用对数神经元建模交叉特征,每个神经元将特征转换为对数空间,从而将幂特征转换为可学习的系数。通过这种方式,每个对数神经元可以捕获任意阶的特定特征交互项。但是,AFN有其固有的局限性,由于对数变换,交互项的输入特征被限制为正值,每个交互项的交互顺序是不受约束的,经过训练后仍然是静态的。

我们主张交叉特性应该只考虑特定的输入特性,并且特性交互应该以实例感知的方式动态建模。其基本原理是,并非所有的输入特征都是交互项的建设性特征,用不相关的特征建模可能只会引入噪声,从而降低有效性和可解释性。特别是,在实际应用中部署学习模型不仅强调了准确性的需要,而且还强调了效率和可解释性的需要。值得注意的是,理解一般行为和学习模型的整体逻辑(全局可解释性),并为做出特定决策提供理由(局部可解释性),对于关键决策(如医疗保健或金融)中的高风险应用至关重要。尽管具有强大的预测能力,但许多“黑盒”模型(如DNN)以隐式方式输入,这是无法解释的,有时会学习到意想不到的模式。在这种情况下,明确地建模特征关系与最小的组成特征集自适应将产生理想的归纳偏差的有效性,效率和可解释性。

本文提出了一种面向结构化数据的自适应关系建模网络(ARM-Net),该网络能够有选择性地动态地刻画任意阶次的相互作用。为此,我们采用门控注意机制解决交叉特征的自适应特征选择问题,并动态地与新的指数神经元建立特征交互权值和交互阶数。其关键思想是在指数空间中建模特征交互,并根据当前的输入实例,即结构化数据的每个元组,动态确定交互权值。特别是,指数神经元将输入特征转化为指数空间,然后通过注意对齐和稀疏的softmax门控动态确定交互权值。因此,每个指数神经元捕获任意阶的特定交叉特征,并通过门控注意自适应过滤无关特征。据我们所知,我们是第一个提出结构化数据的自适应关系建模网络。基于ARM-Net,我们开发了一个轻量级的自适应关系建模框架(ARMOR),用于关系数据分析。ARMOR的概述如图1所示。在训练阶段,ARM-Net被训练成以选择性和动态的方式对特征交互进行建模。在推理阶段,给定输入元组,ARMOR支持各种结构化数据分析的预测、全局可解释性和局部可解释性等关键功能。让我们考虑一个用例,当一家公司想要对每月的销售额进行预测时,一个包含属性字段(month, regionID, storeID, productID)和一些预测目标总销售额的数据表是可用的。在这样的应用中,ARMOR可以学习预测每月的销售目标,并揭示用于预测的交叉特征。
在本例中,特定商店可能在本地销售特定产品方面表现更好,而所有商店可能在全球特定月份/地区销售更多的特定产品。ARMOR能够动态识别这些特征的交叉特征,并以人类可理解的术语突出这些相互作用,而这正是预测分析的基础。我们将主要贡献总结如下。

我们提出指数神经元和门控注意机制的自适应特征交互建模,选择性和动态地捕获交叉特征。

我们开发了一个自适应的关系建模框架,在推理过程中,将结构化数据查询元组作为输入,并为预测分析产生紧凑的关系表示,同时提供全局和局部解释结果,以获得见解。

我们在真实数据集上进行了广泛的实验。实验结果表明,具有门控注意的指数神经元能够自适应地捕获任意顺序的交叉特征,并且我们的ARMOR始终能够获得更好的预测性能和更好的可解释性。

在本文的其余部分中,我们将介绍第2节中的一些初步内容。在第三节中,我们详细介绍了ARM-Net的模块和优化方案,并分别讨论了其有效性、效率和可解释性。第4节提供了有效性和可解释性的实验结果和评价。我们在第5节中回顾了相关工作。最后,在第六节中,我们对论文进行了总结并展望了未来的工作。

2 PRELIMINARIES

在本节中,我们介绍了结构化数据、对数神经网络(LNN)和稀疏softmax的初步知识。我们首先讨论本文中考虑的结构化数据。然后,我们提出了ARM-Net的两个核心技术,即用于建模高阶交互的LNN和用于稀疏选择信息特征的稀疏softmax。标量、向量和矩阵分别记为 x x xx X X X

结构化数据。到目前为止,大多数企业的数据存储和预测分析都依赖于结构化数据。关系数据库管理系统(RDBMS)已成为业界采用的主要数据库系统。结构化数据(或关系数据、表格数据)指的是可以在表中表示的数据类型。结构化数据通常存储在一组表(关系){T1, T2,…}的列和行,它可以从一个关系数据库提取特征提取查询,例如,投影,自然连接,和聚合这些表在数据库中。每一列都符合某些约束的域,并对应于学习模型中的特定特性。结构化数据的表通过外键属性链接到其他表,也就是说,一个表中的一列的值与另一个表的唯一行相关。为了便于讨论,我们因此将结构化数据表述为一个n行和m列的逻辑表 T T T。具体来说,每一行都可以表示为一个元组 ( x , y ) = ( x 1 , x 2 , . . . , x m , y ) (x,y) = (x_1, x_2,...,x_m,y) (xy)=(x1,x2,...,xm,y), y y y是依赖属性(预测目标), x x x是决定属性(特征向量), x i x_i xi是第i个属性值,可以是数值的,也可以是分类的。由于现有的解决方案在有效性、效率和可解释性方面不太适合,因此人们对为结构化数据设计学习模型以及将预测分析集成到RDBMS中越来越感兴趣。

对数神经网络。前馈神经网络(FNNs)是已知的通用函数逼近器。FNN的每个神经元y简单地用相应的可学习权值w聚集输入x: y = ∑ i m w i x i y=\sum _i^m w_i x_i y=imwixi 非线性激活。虽然FNN可以任意近似任何连续函数,但它们不适合模拟无界非线性函数,特别是涉及输入之间的乘法、除法和幂交互的函数。对数算术神经网络(LNN)则直接在对数空间近似这些高阶交互作用 y = e x p ( ∑ i m w i l n x i ) = ∏ i m x i w i y=exp(\sum _i^mw_iln x_i)=\prod_i^m x_i^{w_i} y=exp(imwilnxi)=imxiwi , 每个对数神经元y对输入x进行操作输入x被转换成对数空间。因此,输入之间的乘法、除法和幂交互作用可以转换为权重w的加法、减法和乘法。通过这种对数变换,输入之间的交互作用权重可以自适应地确定,每个对数神经元捕获一个特定的交互项,制作一个交叉功能。

稀疏Softmax。Softmax变换是神经网络模型中的一个关键函数,它将输入向量z映射为概率分布p,其概率与输入值的指数成正比。因此,softmax的输出可以作为模型输出,表示类别概率或表示注意机制中输入的相对重要性的注意权重。softmax可以用熵的变分形式来解释。

3 ARM-NET FOR STRUCTURED DATA ANALYTICS

在本节中,我们首先介绍ARM-Net的概述,它是ARMOR的核心组件,设计用于自适应地建模结构化数据的特征交互。然后详细阐述了ARM-Net的各个模块,并介绍了优化方案。我们进一步讨论了ARM-Net关系建模中捕获的局部和全局可解释性特征交互,并分析了其有效性和效率。

3.1 Overview

ARM-Net的概述如图2所示。主要的直觉是,属性值分布具有“结构”,而特征交互具有“结构”。可以在每个输入的基础上学习这个结构,以便进行更有效和可解释的交互建模。我们进一步认为,在交互建模中并不是所有的特性都是有用的,通过简单地引入更多的组成特性来获取交叉特性是既低效又无效的。相反,我们建议以选择性和动态的方式捕获交叉特性。
在这里插入图片描述
具体来说,给定输入特征x,我们建议首先将每个输入特征转换到指数空间。接下来,我们用我们提出的具有多头门控注意机制的指数神经元自适应地建模特征交互项。每个指数神经元都被设计成明确地模拟任意阶的特定交叉特征,更有效、更容易被人类理解; 而门控注意动态生成交互权值,有选择地过滤噪声特征,使得建模过程更加高效、有效和可解释性。然后,我们将关系表示 (即捕获的交叉特征,对交互进行建模) 提供给预测任务的最终预测模块。我们称我们的模型为ARM-Net,因为它执行自适应关系建模。

3.2 Architecture

3.2.1 Preprocessing Module.

ARM-Net的输入可以表示为一个向量 x = [ x 1 , . . , x m ] x=[x_1,..,x_m] x=[x1,..,xm]的m维属性字段,可以是类别字段或数字字段。
然后将原始输入特征x的每个字段转换为一个嵌入向量。特别是,类别域通过内嵌查找映射到低维潜在空间。注意E的嵌入向量 E i E_i Ei对应于该领域中各自的类别,并且一个领域中不同类别的数量对于现实应用程序来说可能非常大。同时,数值属性字段也需要转化为相同维度的嵌入。这样,我们就可以获得固定大小的输入,即m维嵌入向量 E = [ e 1 , e 2 , . . . , e m ] E = [e_1, e_2,..., e_m] E=[e1,e2,...,em],为了m个属性字段作为模型输入。

3.2.2 Adaptive Relation Modeling Module.

为了动态地建模特征交互,我们提出自适应关系建模模块(ARM-Module),如图3所示,在该模块中我们设计了新的指数神经元来建模任意阶的交叉特征。与LNNs相比[13,22],我们提出的指数神经元放宽了对数神经元对正输入的限制。ARM-Module使用指数神经元,可以通过一个多头门控注意机制,在每个实例的基础上动态地确定顺序。ARM模块的详细设计介绍如下。
在这里插入图片描述
指数神经元。首先,为了解决对数神经元输入必须保持正的限制,我们提出在指数空间处理输入,而不是对数空间,即,将每个输入特征视为自然指数函数的指数。然后我们提出相应的指数神经元进行指数变换:

在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uT2EWdjg-1620803313256)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\image-20210512140430742.png)]

以指数神经元为模型的特征交互基于在指数空间中变换的特征嵌入,即 e x p ( e j ) exp(e_j) exp(ej),相互作用的权重由 w i w_i wi相应的。

多头门控注意力。对于第 i i i个指数神经元 y i y_i yi,幂项 w i = [ w i 1 , w i 2 , . . . , w i m ] w_i = [w_{i1},w_{i2},...,w_{im}] wi=[wi1,wi2,...,wim]是通过一个基于每个输入的多头门控注意机制动态确定的。这种选择性注意机制引导每个指数神经元关注更多的信息特征,并抑制其他特征进行自适应关系建模,由于其灵活性,关系建模过程在捕获交叉特征方面比静态方法更有效和参数效率更高。

为此,我们将每个指数神经元与一个可学习的注意权值向量 v i v_i vi跨实例共享,为每个各自的全局关注权重编码嵌入的属性字段。此外,我们建议动态地重新校准,通过将注意力查询与嵌入的属性字段对齐,然后采用稀疏的softmax,从而过滤噪声特征项,得到的交互项仅用于信息特征,从而更加有效和可解释性。具体来说,我们将每个指数神经元与另一个注意力查询向量 q i q_i qi, 通过双线性注意对齐得分动态生成注意再校准权重。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值