论文研读系列——“On Embeddings for Numerical Features in Tabular Deep Learning”

On Embeddings for Numerical Features in Tabular Deep Learning

arxiv [Submitted on 10 Mar 2022 , last revised 26 Oct 2023 ]

链接:arXiv:2203.05556

代码:https://github.com/Yura52/tabular-dl-num-embeddings

https://github.com/yandex-research/tabular-dl-num-embeddings

摘要

本文讨论了如何使用特殊技术将数字转换为更复杂的形式(称为嵌入)可以使深度学习模型更好地处理数据表,这可以与其他一些高级方法一样好或更好。作者描述了两种创建这些嵌入的新方法:一种将数字分成几部分,另一种使用波浪状图案,这表明这些方法可以显著提高模型性能。他们在不同类型的数据上测试了这些想法,包括一个虚构的数据集,该数据集通常与另一种称为梯度增强决策树的方法配合得很好,发现他们的技术确实可以提高模型的性能。这些嵌入不仅可以帮助花哨的Transformer模型,还可以使更简单的模型(例如MLP(一种基本的神经网络)也能发挥同样的性能,这表明这种方法具有广泛的应用。本文强调选择正确的方法将数字转换为嵌入式至关重要,并建议根据特定数据调整棋子(bin)的数量,以避免使模型过于复杂。

1 引言

表格数据问题目前是深度学习(DL)研究的最后前沿。尽管在自然语言处理、视觉和语音领域取得了最新的突破性进展,这些深度模型在表格领域的成功尚未令人信服。尽管提出了大量针对表格DL的架构,但它们与决策树集成(例如GBDT)之间的性能差距通常仍然很大。最近的工作通过成功地将Transformer架构适配到表格领域,缩小了这一性能差距。与传统模型(如MLP或ResNet)相比,所提出的Transformer类架构对数据的数值特征有特定的处理方式。具体来说,它们将数值特征的标量值映射到高维嵌入向量,然后由自注意力模块混合。除了Transformer之外,数值特征到向量的映射也在不同的点击率(CTR)预测问题中以不同形式被采用。然而,文献主要关注于开发更强大的骨架,同时保持嵌入模块的设计相对简单。特别是,现有的架构使用相当受限的参数映射来构建数值特征的嵌入,例如线性函数,这可能导致次优性能。在这项工作中,作者展示了嵌入步骤对模型效果有重大影响,并且其合理设计可以显著改进表格DL模型。

特别是,作者描述了两种不同的构建嵌入模块的方法:第一种基于标量值的分段线性编码,第二种利用周期性激活函数。然后,作者实证展示了这两种方法与基于传统块(如线性层和ReLU激活)的嵌入相比,可以带来显著的性能提升。重要的是,作者还展示了嵌入数值特征对于许多骨架都是有益的,不仅仅是Transformer类架构。具体来说,在适当的嵌入之后,简单的类似MLP的模型可以与基于注意力的架构相媲美。总的来说,作者强调数值特征的嵌入是表格DL设计中一个重要的方面,具有进一步改进的良好潜力。

作为另一个重要发现,作者说明了嵌入数值特征的步骤对于不同的深度架构普遍有益,不仅仅是Transformer类架构。具体来说,作者展示了,在适当的嵌入之后,简单的类似MLP的架构经常能够提供与最先进的基于注意力的模型相当的性能。总的来说,作者的工作展示了数值特征嵌入对表格深度学习性能的巨大影响,并展示了在未来研究中探索更高级嵌入方案的潜力。

总结起来,作者的贡献如下:

  1. 作者展示了数值特征的嵌入方案是表格深度学习中一个未被充分研究的问题。具体来说,作者展示了更具表现力的嵌入方案可以比之前的模型提供显著的性能提升。
  2. 作者展示了从嵌入数值特征中获益并非特定于Transformer类架构,适当的嵌入方案也使传统模型受益。
  3. 在多个公共基准测试中,作者实现了表格深度学习的新最先进水平。

2 Related work(相关工作)

表格深度学习。在最近几年中,社区提出了大量的表格数据深度模型。然而,当系统地评估时,这些模型并不总是能够一致地超越决策树集成,例如梯度提升决策树(GBDT)。此外,最近的几项研究表明,所提出的复杂架构并不比适当调整的简单模型,如多层感知器(MLP)和残差网络(ResNet),更优越。在这项工作中,与以往的文献不同,作者的目标不是提出一个新的骨架架构。相反,作者专注于更精确地处理数值特征,作者的发展可以与任何模型结合,包括传统的MLPs和最近的Transformer类模型。

Transformer在表格深度学习中的应用。由于Transformer在不同领域的巨大成功,最近有几项工作也将自注意力设计适配到表格深度学习中。与传统的选择相比,将自注意力模块应用于表格数据的数值特征需要将这些特征的标量值映射到高维嵌入向量。到目前为止,现有的架构通过相对简单的计算块执行这种“标量”到“向量”的映射,这在实践中可能会限制模型的表现力。例如,最近提出的FT-Transformer架构只使用了一个线性层。在作者的实验中,他们展示了这样的嵌入方案可以提供次优性能,而更高级的方案经常能带来显著的好处。

CTR预测。在CTR预测问题中,对象由数值和分类特征表示,这使得这个领域与表格数据问题高度相关。然而,尽管在几项工作中以一些非平凡的方式处理了数值特征,但它们并不是研究的中心部分。最近,Guo等人提出了一个更高级的方案,但它仍然基于线性层和传统的激活函数,作者发现在他们的评估中这是次优的。

特征分箱。分箱是一种将数值特征转换为分类特征的离散化技术。具体来说,对于给定的特征,其值的范围被分割成箱(区间),之后原始特征值被替换为相应箱的离散描述符(例如箱索引或一位有效向量)。作者引用了Dougherty等人的工作,他们对一些经典的分箱方法进行了概述,可以作为相关文献的起点。然而,在作者的工作中,他们以不同的方式使用箱。具体来说,作者使用它们的边缘构建原始标量值的无损分段线性表示。结果表明,这种简单且可解释的表示可以为几个表格问题上的深度模型提供显著的好处。

周期性激活。最近,周期性激活函数已成为处理类似坐标的输入的关键组成部分,这在许多应用中是必需的。例子包括自然语言处理、计算机视觉、隐式神经表示等。在作者的工作中,他们展示了周期性激活可以用来为表格数据问题中的数值特征构建强大的嵌入模块。与一些上述论文不同,在这些论文中,多维坐标的组成部分在传递给周期性函数之前被混合(例如,使用线性层),作者发现将每个特征单独嵌入然后在主骨架中混合它们至关重要。

3 Embeddings for numerical features(数值特征的嵌入)

在本节中,作者描述了他所称的“数值特征嵌入”的通用框架,以及在第4节中的实验比较中使用的主要构建块。

表示法。对于给定的表格数据的监督学习问题,我们表示数据集为 { ( x j , y j ) } j = 1 n \{(x^j, y^j)\}^n_{j=1} {(xj,yj)}j=1n,其中 y j y_j yj 属于 Y 表示对象的标签, x j = ( x j ( n u m ) , x j ( c a t ) ) x^j = (x^{j(num)}, x^{j(cat)}) xj=(xj(num),xj(cat)) 属于 X 表示对象的特征(数值和分类)。 x i j ( n u m ) x^{j(num)}_i xij(num) 表示第 j 个对象的第 i 个数值特征。根据上下文,可以省略索引 j。数据集被分成三个不相交的部分: 1 , n ‾ = J t r a i n ∪ J v a l ∪ J t e s t \overline{1, n} = J_{train} ∪ J_{val} ∪ J_{test} 1,n=JtrainJvalJtest,其中“train”部分用于训练,“validation”部分用于早期停止和超参数调整,“test”部分用于最终评估。

3.1 通用框架

我们将“数值特征的嵌入”的概念形式化为 z i = f i ( ( x i ( n u m ) ) z_i = f_i((x^{(num)}_i) zi=fi((xi(num)) ∈ \in R d i R^{d_i} Rdi,其中 f i ( x ) f_i(x) fi(x) 是第 i 个数值特征的嵌入函数, z i z_i zi 是第 i 个数值特征的嵌入, d i d_i di 是嵌入的维度。重要的是,所提出的框架意味着所有特征的嵌入是独立计算的。注意,函数 f i f_i fi 可以依赖于作为整个模型一部分进行训练的参数,或者以其他方式(例如,在主优化之前)进行训练。在这项工作中,作者只考虑所有特征的嵌入函数具有相同函数形式的嵌入方案。并从不共享不同特征的嵌入函数的参数。

嵌入的后续使用取决于模型的骨架。对于类似MLP的架构,它们被连接成一个平面向量(见附录A中的插图)。对于基于Transformer的架构,不执行额外步骤,嵌入被原样传递,因此使用方式由原始架构定义。

3.2 分段线性编码

虽然标准的MLP被认为是一个通用逼近器,但在实践中,由于优化特性,它在学习能力上存在局限性。然而,最近的工作揭示了改变输入空间可以缓解上述问题的案例。这一观察激发了作者检查是否可以改进数值特征的原始标量值的表示,以提高表格深度学习模型的学习能力。

在这一点上,作者尝试从“经典”机器学习技术中寻找灵感,特别是从一位有效编码算法中,该算法已广泛用于表示离散实体,例如表格数据问题中的分类特征或NLP中的标记。我们注意到,一位有效表示可以被视为与标量表示在参数效率和表达能力之间的权衡中的相反解决方案。为了检验类似于一位有效的方法是否对表格深度学习模型有益,作者设计了一种连续的替代方案,用于一位有效编码(因为标准的一位有效编码几乎不适用于数值特征)。

正式地,对于第 i 个数值特征,作者将其值范围分割成 T i T^i Ti 个不相交的区间 B 1 i , . . . , B T i B^i_1, ..., B^i_T B1i,...,BTi,我们称之为箱子: B t i = [ b t − 1 i , b t i ) B^i_t = [b^i_{t-1}, b^i_t) Bti=[bt1i,bti)。分割算法是一个重要的实现细节,我们稍后讨论。从现在开始,为了简单起见,我们省略特征索引 i。一旦确定了箱子,我们定义编码方案如下:

在这里插入图片描述
在这里插入图片描述

这里 PLE 代表“分段线性编码”。我们在图 1 中提供了可视化。请注意:

  • PLE 为数值特征产生替代的初始表示,并且可以被视为一种预处理策略。这些表示只计算一次,然后在主优化期间代替原始标量值使用。
  • 对于 T = 1,PLE 表示实际上等同于标量表示。
  • 与分类特征不同,数值特征是有序的;我们通过将对应于右侧边界低于给定特征值的箱子的组件设置为 1 来表达这一点(这种方法类似于在序数回归问题中对标签进行编码的方式)。
  • 也涵盖了 ( x < b 0 x < b_0 x<b0) 和 ( x > = b T x >= b_T x>=bT) 的情况(这导致 ( e 1 < = 0 e_1 <= 0 e1<=0) 和 ( e T > = 1 e_T >= 1 eT>=1))。
  • 选择将表示制作为分段线性是一个讨论的话题。作者在小节 5.2 中分析了一些替代方案。
  • PLE 可以被视为特征预处理,这在小节 5.3 中进一步讨论。

关于基于注意力的模型的说明。虽然描述的 PLE 表示可以直接传递给类似 MLP 的模型,但基于注意力的模型本质上对输入嵌入的顺序不变,因此需要一个额外的步骤来添加有关特征索引的信息到获得的编码中。技术上,我们观察到在 PLE 之后放置一个线性层(在特征之间不共享权重)就足够了。从概念上讲,这个解决方案有一个清晰的语义解释。具体来说,它等同于为每个箱子 B t B_t Bt 分配一个可训练的嵌入向量 v t ∈ R d v_t \in R^d vtRd,通过 e t e_t et 作为权重获得最终特征嵌入,加上偏置 v 0 v_0 v0。正式地:

f i ( x ) = v 0 + ∑ t = 1 T ( e t ⋅ v t ) = L i n e a r ( P L E ( x ) ) f_i(x) = v_0 + ∑_{t=1}^T(e_t · v_t) = Linear(PLE(x)) fi(x)=v0+t=1T(etvt)=Linear(PLE(x))

在接下来的两节中,作者描述了构建 PLE 适用箱子的两种简单算法。具体来说,作者依赖于经典的分箱算法,其中一种算法是无监督的,而另一种算法利用标签来构建箱子。

3.2.1 从分位数获取箱子

构建 PLE 箱子的一种自然基线方法是根据相应个体特征分布的均匀选择的经验分位数来分割值范围。正式地,对于第 i 个特征:

b t = Q t T ( { x i j ( n u m ) } j ∈ J t r a i n ) b_t = Q_{\frac t T} (\{x^{j(num)}_i\}_{j∈J_{train}}) bt=QTt({xij(num)}jJtrain)

其中 Q 是经验分位数函数。移除大小为零的平凡箱子。我们在第 5.1 节中描述的合成 GBDT 友好型数据集上展示了所提方案的有用性。

3.2.2 构建目标感知箱子

事实上,也有一些监督方法使用训练标签来构建箱子。直观地说,这些目标感知算法旨在产生对应于可能目标值范围相对较窄的箱子。我们工作中使用的监督方法在精神上与 Kohavi 和 Sahami 的“C4.5 离散化”算法相同。简而言之,对于每个特征,我们使用目标作为指导,以贪婪的方式递归地分割其值范围,这相当于构建一个决策树(该树仅使用这一个特征和目标进行生长),并将对应于其叶子的区域视为 PLE 的箱子(见图 4)。此外,我们定义 b 0 i = m i n j ∈ J t r a i n x i j 和 b T i = m a x j ∈ J t r a i n x i j b^i_0 = min_{j∈J_{train}} x^j_i 和 b^i_T = max_{j∈J_{train}} x^j_i b0i=minjJtrainxijbTi=maxjJtrainxij

3.3 周期性激活函数

回想一下,在小节 3.2 中,Tancik 等人的工作被用作我们开发 PLE 的动机的起点。因此,我们也尝试将原始工作本身适应于表格数据问题。我们的变体在两个方面有所不同。首先,我们考虑到第 3.1 小节中描述的嵌入框架禁止在嵌入过程中混合特征。其次,作者训练预激活系数,而不是保持它们固定。结果,作者的方法与 Li 等人的工作相当接近,其中“组”的数量等于数值特征的数量。作者在等式 2 中形式化了所描述的方案:

f i ( x ) = P e r i o d i c ( x ) = c o n c a t [ s i n ( v ) , c o s ( v ) ] , v = [ 2 π c 1 x , . . . , 2 π c k x ] f_i(x) = Periodic(x) = concat[sin(v), cos(v)], v = [2πc_1x, ..., 2πc_kx] fi(x)=Periodic(x)=concat[sin(v),cos(v)],v=[2πc1x,...,2πckx]

其中 c i c_i ci 是可训练参数,初始化自 N ( 0 , σ ) N(0, σ) N(0,σ)。我们观察到 σ σ σ 是一个重要的超参数。 σ σ σ k k k 通过验证集进行调整。

3.4 简单的可微分层

在深度学习的背景下,使用传统的可微分层(例如线性层、ReLU激活等)来嵌入数值特征是一种自然的方法。实际上,这种技术已经在最近提出的基于注意力的架构中单独使用,并且在一些 CTR 预测问题的模型中也使用了。然而,作者还注意到,这种传统的模块可以叠加在小节 3.2 和小节 3.3 中描述的组件之上。在第 4 节中,作者发现这种组合经常能带来更好的结果。

4 Experiments(实验)

在本节中,我们将实证评估第3节讨论的技术,并与梯度提升决策树(GBDT)进行比较,以检查“深度学习与GBDT”竞争的现状。

4.1 数据集

表1: 数据集属性。“RMSE”表示均方根误差,“Acc.”表示准确率。

在这里插入图片描述

作者使用了十一个公共数据集,主要来自先前关于表格深度学习的研究和Kaggle竞赛。重要的是,作者专注于中大规模任务,基准偏向于GBDT友好的问题,因为到目前为止,在这些任务上与GBDT模型的差距是表格深度学习的主要挑战之一。主要数据集属性在表1中总结。

4.2 实现细节

在超参数调整、训练和评估协议方面,作者主要遵循Gorishniy等人的工作。在下一段中,作者将描述特定于数值特征嵌入的实现细节。

**数值特征的嵌入。**如果使用线性层,作者将调整它们的输出维度。PLE的超参数对所有特征都是相同的。对于基于分位数的PLE,作者调整分位数的数量。对于目标感知PLE,作者调整决策树的以下参数:最大叶子数、每个叶子的最小项目数,以及生长树时进行分割所需的最小信息增益。对于周期性模块(见等式2),作者调整σ和k(这些超参数对所有特征都是相同的)。

4.3 模型名称

在实验中,作者考虑了不同组合的骨架和嵌入。为了方便,作者使用“骨架-嵌入”模式来命名模型,其中“骨架”表示骨架(例如MLP、ResNet、Transformer),“嵌入”表示嵌入类型。见表2中考虑的所有嵌入模块。注意:

  • 周期性在等式2中定义。

  • P L E q PLE_q PLEq表示基于分位数的PLE。 P L E t PLE_t PLEt表示目标感知 P L E PLE PLE

  • Linear−表示无偏线性层。LReLU表示泄漏ReLU。AutoDis由Guo等人提出。

    在这里插入图片描述

4.4 简单的可微嵌入模块

表3: 使用简单嵌入模块(见小节4.3)的MLP的结果。报告的是15个随机种子的平均值。标准差在附录F中提供。我们认为一个结果比另一个更好,如果它的平均分数更好,且它的标准差小于差异。

在这里插入图片描述

我们首先评估由“传统”可微层组成的嵌入模块(线性层、ReLU激活等)。结果总结在表3中。主要收获:

  • 首先,结果表明MLP可以从嵌入模块中受益。因此,我们得出结论,这种骨架在评估嵌入模块时值得关注。
  • 简单的LR模块在应用于MLP时会带来适度但一致的改进。

有趣的是,“多余”的MLP-L配置也倾向于优于标准的MLP。尽管改进不是戏剧性的,但这种架构的一个特殊属性是,训练后可以将线性嵌入模块与MLP的第一线性层融合在一起,从而完全消除开销。至于LRLR和AutoDis,我们观察到这些重型模块并不值得额外的成本。

4.5 分段线性编码

在这一部分,我们评估了在小节3.2中描述的编码方案。结果总结在表4中。主要收获包括:

  • 分段线性编码对两种架构(MLP和Transformer)通常都是有益的,并且收益可能非常显著(例如,参见CA和AD数据集)。
  • 在PLE之上添加可微分组件可以提高性能。尽管如此,像Q-LRLR和T-LRLR这样的最昂贵的修改并不值得(见附录F)。

注意,由于我们的基准偏向于GBDT友好的问题,所以在表4中可以观察到基于树的箱子通常优于基于分位数的箱子,这可能不会推广到更倾向于深度学习的数据集。因此,我们在这里不就两种方案的相对优势做出任何一般性的声明。

在这里插入图片描述

4.6 周期性激活函数

表5: 使用基于周期性激活的嵌入模块(小节3.3)的MLP和Transformer的结果。注释遵循表3和表2。分别为MLP和Transformer骨架定义了最佳结果。

在这里插入图片描述

在这一部分,作者评估了在小节3.3中描述的基于周期性激活函数的嵌入模块。结果报告在表5中。主要收获是:平均而言,MLP-P优于标准的MLP。然而,应该将添加可微分组件作为Periodic模块之上的默认策略(这与Li等人的研究一致)。实际上,MLP-PLR和MLP-PL在MLP-P之上提供了有意义的改进(例如,见GE、CA、HO),甚至“修复”了MLP-P在某些方面不如MLP的情况(OT、FB)。

尽管MLP-PLR通常优于MLP-PL,作者注意到在后一种情况下,嵌入模块的最后一个线性层在表达性方面是“多余的”,并且可以在训练后与骨架的第一个线性层融合,从理论上讲,可以导致一个更轻量级的模型。最后,我们观察到MLP-PLRLR和MLP-PLR之间没有足够的显著差异来证明PLRLR模块的额外成本。

4.7 比较DL模型和GBDT

在这一部分,作者进行了各种方法的大比较,以确定最佳的嵌入模块和骨架,以及检查数值特征的嵌入是否允许DL模型在更多任务上与GBDT竞争。重要的是,作者将DL模型的集成与GBDT的集成进行比较,因为梯度提升本质上是一种集成技术,所以这样的比较会更公平。注意,作者只关注最佳指标值,不考虑效率,所以作者只检查DL模型在概念上是否准备好与GBDT竞争。

作者考虑了三种骨架:MLP、ResNet和Transformer,因为它们被报告为代表当前基线DL骨架的能力。注意,作者没有包括也在对象层面应用注意力的注意力模型,因为这种非参数组成部分与我们工作的核心主题正交。结果总结在表6中。

表6: 使用不同类型的数值特征嵌入的GBDT集成、基线DL模型及其修改的结果。注释遵循表3和表2。由于精度限制,一些不同的值用相同的数字表示。

在这里插入图片描述

主要的DL模型收获包括

  • 对于大多数数据集,数值特征的嵌入可以为三种不同的骨架提供明显的改进。尽管平均排名不是得出微妙结论的好指标,我们突出显示了MLP和MLP-PLR模型之间平均排名的显著差异。
  • 最简单的LR嵌入是一个好的基线解决方案:尽管性能提升不大,其主要优点是一致性(例如,见MLP vs MLP-LR)。
  • PLR模块提供了最佳的平均水平性能。从经验上,我们观察到σ(见等式2)是一个重要的超参数,应该进行调整。
  • 分段线性编码(PLE)允许构建性能良好的嵌入(例如T-LR,Q-LR)。除此之外,由于其简单性、可解释性和效率(没有计算成本高的周期性函数),PLE本身值得关注。
  • 重要的是,当类似MLP的架构与数值特征的嵌入结合后,它们的表现与基于Transformer的模型相当。

关于“DL与GBDT”竞争的主要收获:数值特征的嵌入是一个重要的设计方面,对于改进DL模型和缩小与GBDT在GBDT友好任务上的差距具有巨大潜力。让我们通过几个观察来说明这一主张:

  • 基准最初偏向于GBDT友好的问题,这可以通过比较GBDT解决方案与标准DL模型(MLP、ResNet、Transformer-L)来观察。
  • 然而,对于大多数“骨架&数据集”对,适当的嵌入是缩小与GBDT差距的唯一需要的东西。例外(相当正式的)包括MI数据集和以下对:“ResNet & GE”,“Transformer & FB”,“Transformer & GE”,“Transformer & OT”。
  • 此外,据我们所知,这是DL模型首次在众所周知的California Housing和Adult数据集上与GBDT表现相当。

也就是说,与GBDT模型相比,效率仍然可能是所考虑的DL架构的一个问题。无论如何,权衡完全取决于特定的用例和要求。

5 Analysis(分析)

5.1 比较模型大小

为了量化数值特征嵌入对模型大小的影响,作者在表7中报告了参数计数。总的来说,引入数值特征的嵌入可能会导致模型大小方面的不可忽视的开销。重要的是,就大小方面的开销并不转化为相同的训练时间和吞吐量方面的开销。例如,MLP-LR在CH数据集上的参数计数增加了近2000倍,但训练时间仅增加了1.5倍。最后,在实践中,作者观察到将MLP和ResNet与嵌入模块结合使用会导致比基于Transformer的模型更快的架构。

表7: 使用不同嵌入模块的MLP的参数计数。所有模型都经过了调整,相应的骨架在大小上并不相同,所以我们考虑到不同的方法需要不同数量的参数来实现其全部潜力。

在这里插入图片描述

5.2 消融研究

表8: 比较分段线性编码(PLE)与小节5.2中描述的两种变体。注释遵循表3和表2。

在这里插入图片描述

在这一部分,我们比较了两种基于分箱的编码方案与PLE(见小节3.2)。第一种将二进制值1代替分段线性项(见等式1)。第二种是单一整体编码的泛化版本。调整和评估协议与小节4.2中的相同。表8中的结果表明,使基于分箱的编码分段线性是一个好默认策略。

5.3 分段线性编码作为特征预处理技术

众所周知,数据预处理,如标准化或分位数转换,通常对DL模型达到竞争性能至关重要。此外,性能可能在不同类型的预处理之间显著变化。与此同时,PLE表示仅包含[0,1]中的值,并且它们对移位和缩放不变,这使得PLE本身成为一种通用的特征预处理技术,可能适用于DL模型,而无需首先使用传统预处理。

为了说明这一点,对于在第4节中使用分位数转换的数据集,作者重新评估了MLP、MLP-Q和MLP-T的不同预处理策略的调整配置,并在表9中报告了结果(请注意,标准化对于具有PLE的模型等同于没有预处理)。

表9: MLP和具有PLE的MLP对不同类型数据预处理的结果。使用PLE的解决方案对数据预处理的敏感性显著降低。

在这里插入图片描述

首先,没有预处理的标准MLP通常变得不可用。其次,对于标准MLP来说,选择一种特定的预处理可能很重要(CA、HO、FB、MI),这对于MLP-Q来说不太明显,对于MLP-T来说则不是问题(尽管,这种特定的观察可能是基准的特性,而不是MLP-T的)。总的来说,结果表明,使用PLE的模型与标准MLP相比,对初始预处理的敏感性较低。这对于实践者来说是PLE表示的额外好处,因为预处理的方面变得不那么关键了。

5.4 “特征工程”视角

表10: XGBoost和MLP的周期性基础模块效果比较。

在这里插入图片描述

乍一看,特征嵌入可能类似于特征工程,应该适用于所有类型的模型。然而,所提出的嵌入方案是由DL特定的训练方面激发的(见小节3.2和3.3的动机部分)。虽然作者的方法可能很好地转移到具有类似训练特性的模型(例如,到线性模型,因为它们是深度模型的一个特例),但通常并非如此。为了说明这一点,作者尝试通过固定等式2中的随机系数来采用XGBoost的周期性模块。作者还保留原始特征而不是丢弃它们。调整和评估协议与小节4.2中的相同。表10中的结果表明,这种技术虽然对DL模型有用,但对XGBoost没有带来任何好处。

6 Conclusion & Future work(结论与未来工作)

在这项工作中,作者展示了数值特征的嵌入是表格DL架构的重要设计方面。具体来说,它允许现有的DL骨架取得明显更好的结果,并显著减少与梯度提升决策树的差距。作者描述了两种方法来说明这种现象,一种是使用原始标量值的分段线性编码,另一种是使用周期函数。作者还展示了,与传统的MLP-like模型结合嵌入后,可以与基于注意力的模型相媲美。

尽管如此,作者只是触及了这个新方向的表面。例如,如何确切地讨论所讨论的嵌入模块在基础层面上帮助优化仍然是一个需要解释的问题。此外,作者只考虑了对所有特征应用相同的函数转换方案,这可能是一个次优的选择。

最后感谢你看到这里,以上观点均为本人对原论文的个人理解,仅作个人学习使用,如有错误或侵权,麻烦联系我,本人定修改或删除。

祝你天天开心,多笑笑。

  • 12
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值