表格图_使用TableGraphNet对表格数据进行可解释的深度建模（没代码）

本文链接：https://blog.csdn.net/qq_45972323/article/details/140748904

Explainable Deep Modeling of Tabular Data using TableGraphNet

代码
论文

摘要
绝大多数关于可解释性的研究都集中在后可解释性方面，而不是可解释性建模。也就是说，一个解释模型来解释一个复杂的黑箱模型建立的唯一目的是实现最高的性能可能。在某种程度上，这种趋势可能是由一种误解驱动的，即在可解释性和准确性之间存在权衡。
此外，基于博弈论的Shapely值的后续工作也有助于新一波的后可解释性研究，以更好地近似各种机器学习模型，包括深度学习模型。我们提出了一个新的架构，固有地产生可解释的预测的形式添加剂的功能属性。我们的方法为数据集中的每个记录学习一个图形表示。
然后，从图中导出以属性为中心的特征，并将其馈送到贡献深度集模型中以产生最终预测。我们表明，我们的可解释模型达到了与黑盒模型相同的性能水平。最后，我们提供了一种增强的模型训练方法，该方法利用了缺失属性，并在不损失准确性的情况下产生高水平的一致性（如Shapely值所需）。

TableGraphNet将每个原始数据处理，学习其图形表示，从图中导出属性中心特征，用于深度学习预测。

1.介绍
对解释模型预测的兴趣正在增加。在某种程度上，这是由于保险等行业的法规，以确保模型不歧视。它还受到用户的驱动，用户试图提取可操作的见解，超越观察和预测，以影响业务流程。
大多数研究工作都花在后可解释性，而不是可解释的建模。后可解释性ap用解释模型来近似原始模型。然而，这种方法在准确性和可解释性之间造成了人为的权衡。最好的解释应该由模型本身提供（Rudin，2019）。因此，我们认为，可解释性应该嵌入到模型中，以允许模型出于正确的原因做出正确的预测。
我们提出了一种称为TableGraphNet的通用架构来构建预测模型，该模型还在预测期间提供特征属性。该架构的重点是提供局部可解释性（Doshi-Velez，2017），其目标是解释模型和输入实例的特定预测，而全局可解释性则提供模型的整体行为。TableGraphNet提供的可解释性是以特征属性的形式，其中模型的输出被分解为每个属性的贡献（Shrikumar等，（2017年版）。研究表明，该体系结构不存在精确性与可解释性之间的折衷。我们实际上观察到，更好的可解释性产生更好的准确性。
我们认识到Shapely值需要具有的属性的重要性，不仅对于后可解释性方法，而且对于像这种情况下的可解释建模。采用可解释的模型并不能保证可解释性。如果没有一个公理化的框架，评估归因/贡献的质量，即使是由一个可解释的模型产生的，也是一项艰巨的任务。也很难凭经验评估质量，因为缺乏标有属性真正重要性的基准数据集。TableGraphNet的设计结合了Shapely值所需的两个属性（局部准确性和缺失性（Lundberg & Lee，2017）），我们根据经验观察到，通过采用利用缺失属性的增强训练策略，也可以满足一致性（Lundberg & Lee，2017）。
强制执行这些属性会产生额外的好处，例如TableGraphNet自然地处理原始数据集中的缺失值，并且不需要插补。此外，TableGraphNet还遵守保序属性（安科纳等人，2019），即输出不受属性顺序的影响。
在计算机视觉中的可解释建模的上下文中，（Chen等人，2018）提出了在传统的卷积神经网络（CNN）中添加原型层，以捕获图像分类中的语义概念。对CNN的修改也由Zhang等人提出（Zhang等人，2018），通过将每个更高级别的过滤器与对象部分相关联。对象识别的联合预测和解释也由（Hendricks等人，（2016年版）。对于自然语言处理，（Lei等人，2016）提出了使用包含生成器和编码器的模块化架构来提取文本片段作为预测的理由。
TableGraphNet的目标是表格数据，这些数据本质上是异构的，并且大多数时候，每个属性都定义了一个明确的概念（例如客户信用评分）。它采用Shapely值的公理视图，并且不需要数据中的任何注释。在这个过程中，我们相信这种架构也填补了神经网络对表格数据适用性的空白。在这种情况下，我们还没有看到神经网络与它们在计算机视觉中的巨大成功相比具有相同的影响（LeCun et al.，1998年; Krizhevsky等人，2017 a），演讲（货车den Oord等人，2016）和自然语言处理（Devlin等人，2018），其中数据是同质的，具有空间和时间维度。
第2节介绍了为TableGraphNet提出的架构。第3节详细介绍了数值实验和使用TableGraphNet获得的结果。最后，第4节总结了研究，并提出了未来的改进方向。

TableGraphNet处理的是表格数据，表格数据本质上是异构的，每个属性都有明确的概念，不像CV/NLP的数据是同构的。
受<使用加性子网模型和原子中心特征来确定分子原子化学能>的启发，解决设计一个包含加性特征属性的体系结构的问题。分子表示为化学图，定点对应原子，边对应于化学键。每个原子的原子中心特征由所有原子共享的原子神经网络来处理。最终的能量是使用相应的原子神经网络计算的所有单个原子能量的总和。
我们建议扩展这种类型的架构，以适应表格数据，克服的挑战，表格数据包含异构属性，它没有一个自然的图形表示，能够提取属性为中心的功能。

2.TableGraphNet
给定每个记录的M个属性x = [x1，...xM]，目标是开发一个预测函数f（x），该函数可以分解为M项，对应于每个属性xk（k = 1）的单个贡献ρk（x）。..M和ρ0，独立于数据x的有偏项。
请注意，f（x）不是一个近似于更复杂的黑盒模型的解释模型。相反，它是用于进行预测的主要模型，作为副产品，它还提供了有关特征属性的信息。
2.1.架构
即使是遵循等式1中分解的架构，也可能产生混淆因素。为了解决设计一个包含加性特征属性的体系结构的问题，我们从Jöorg Behler和Michele Parrinello（Behler & Parrinello，2007; Behler，2011）的工作中得到了启发，他们使用加性子网模型和原子中心特征来确定分子原子化能量。在本文中，分子被表示为化学图，其中顶点对应于原子，边对应于化学键。目前，提出的原子中心特征提取方法有多种，但都是基于对称函数的。对称函数的一个例子是聚集以每个原子为中心的成对距离信息的函数。最后，每个原子的原子中心特征由所有原子共享的原子神经网络来处理。最终的能量是使用相应的原子神经网络计算的所有单个原子能量的总和。
在（Behler & Parrinello，2007; Behler，2011）中提出的架构是加性深集模型（Zaheer等人，2017），其中输入是以原子为中心的特征，并且它提供关于原子排列和分子大小可扩展性的不变性。我们建议扩展这种类型的架构，以适应表格数据，克服的挑战，表格数据包含异构属性，它没有一个自然的图形表示，能够提取属性为中心的功能。
TableGraphNet的整体架构如图1所示。这个思想是从前面引用的著作中自然产生的。数据集中的每个记录/行都表示为一个图形或一系列图形。在图中，顶点对应于原始属性，边对应于这些属性之间的距离。通过每个记录的图形表示，我们可以提取以属性为中心的特征（例如，以每个属性为中心的成对距离的聚合），这些特征最终成为预测目标的加性深度集模型的输入。最后加法中的项表示每个单独属性的贡献。使用一组距离神经网络获得图形表示，这些距离神经网络与深度集模型中使用的贡献神经网络同时训练。
在下文中，我们详细介绍了所提出的架构的组成部分：（1）初始数据准备，（2）Carnival产品转换，（2）使用距离神经网络的图形表示，（3）以属性为中心的特征和池化，以及（4）贡献神经网络。
初始数据准备包括扁平化数据集，以便我们获得一个N×M表，其中N是记录数，M是属性数。由于我们计划学习两个属性之间的距离函数，因此所有属性都被缩放到相同的范围。
执行笛卡尔积变换以将N×M数据集转换为NM 2 ×2（E+1）数据集，其中E ≥ 0，参见图2。因为对于每条记录，我们需要计算所有属性对之间的距离，这导致每条记录的M2距离计算。每个距离计算至少有两个参数，即与计算中涉及的两个属性对应的两个值。
除了两个属性值之外，还可以选择添加与两个属性相对应的编码（例如，它们的独热编码，其中E表示编码特征的数量）。我们已经注意到，在数值上，包括两个属性的独热编码显着提高了模型的准确性。包含属性标识引入了额外的自由度，并允许模型区分不同的属性对。例如，客户的信用评分和信用额度之间的距离计算（正相关）应该不同于信用评分和利率之间的距离（负相关）。
使用距离神经网络的图形表示。数据集中的每个记录/行使用一组图G = {Gj}j=1.其中每个图被定义为元组Gj = {Vj，Ej}。Vj = {xk}k=1.M是对应于原始属性的节点的集合，并且Ej = {（ej，k，l，xk，xl）}k，l=1.M是边的集合，其中xk是源，xl是接收器，并且ej，k，l是第j个图中从xk到xl的距离。
节点之间的距离使用神经网络建模，其参数在TableGraphNet的训练过程中学习。所有属性对共享相同的距离函数。
这里，enc（k）表示第k个属性的编码，xk是数据集中特定记录的第k个属性的值。在上面的公式中省略了记录编号以提高可读性，但是应该在第i条记录的上下文中考虑该公式。
请注意，这个距离函数是为数据集中的每个记录导出图形表示的函数。虽然人们可以选择使用一个距离（例如L1或L2范数），而不像这里建议的那样尝试学习它，但我们发现，联合学习距离沿着贡献神经网络显着提高了模型的准确性。
此外，诸如L1或L2范数的距离是服从三角不等式的适当对称距离。我们在学习距离函数dNN j时不施加任何约束。我们认为，要获得一个很好的表示属性的贡献，需要非对称的距离函数。
这一论断目前没有任何理论结果支持。我们只有来自数值结果的轶事证据，以及不对称边缘将导致在属性贡献计算中使用更多样化的节点中心特征的直觉。假设相似的节点中心特征将导致混淆属性贡献。
以属性为中心的功能和池化。考虑到数据集中的每条记录现在都是使用由学习的距离函数导出的一组图来表示的，我们可以继续从每个图中提取以节点/属性为中心的特征，然后将它们集中在图中。特征的示例包括图中每个节点的流出和/或流入边的值的聚合（例如，总和、平均值、最大值），或者使用PageRank确定的节点排名（Brin & Page，1998）。考虑流出边的值之和。
最终的以属性为中心的特征是跨所有图聚合对应的以节点为中心的特征的结果（例如，级联，max）。考虑连接操作。
请注意，在当前的架构和数值实验中，我们已经将来自原始属性的所有信息合并到边的值中，并且没有在节点级别添加额外的信息，这就是为什么先前引入的所有以节点为中心的特征都是从边导出的原因。由于这种限制，我们发现，为了实现最低的预测误差，我们需要一个以上的图形表示。
然而，该模型可以通过使用图形网络来扩展（Battaglia等人，2018）基于用于节点和边上的信息传播的附加参数化操作从原始诱导图导出新图。从这些衍生图中获得的信息可以比我们研究中目前使用的信息丰富得多，并将在未来的研究中进行探索。
贡献神经网络。在所有图形表示ak上提取和汇集的属性中心特征被馈送到一组贡献神经网络中，以计算每个属性的单独贡献。在对应于原始属性的所有特征组之间共享贡献神经网络。此外，为了提高模型的性能，我们提出将贡献神经网络的共享权重视为卷积神经网络中的滤波器（Chowdhury等人，2020年）的报告。
我们使用F滤波器来学习与诸如边缘或角的基本图像特征类似的不同特征（LeCun等人，1999），其随后被组合以检测诸如面部的更高级概念（Krizhevsky等人，2017年b月）。集合中的每个过滤器扫描每个原始属性的基于特征的对应图，并且为了获得一个属性ρk的贡献，我们对该特定属性ρk，j的所有过滤器的输出求和。
TableGraphNet的最终输出是通过将所有属性贡献沿着加上在模型训练期间学习的偏置项ρ0来给出的。
如前所述，模型的这一部分只是一个加性深集模型（Zaheer等人，2017），这确保了如果原始属性的相对顺序发生变化，它不会影响模型的最终输出。
2.2.与Shapely价值观的关系
在本节中，我们使用（Lundberg & Lee，2017）引入的公理集来唯一地确定加性特征属性。
第一个属性，局部精度，它是固有的满足我们提出的添加剂模型，方程。1.请注意，ρ0 = f（0），其中f（0）是所有属性值缺失时的函数值，并且在模型训练期间学习。
第二个属性，missingness，表示第k个属性的贡献，如果该属性的值缺失，ρk = 0。在TableGraphNet中，这是通过以下方式实现的：（1）如果源属性的值缺失，则将所有成对特征设置为零;（2）使用距离神经网络和无偏置项的贡献神经网络，以便零通过网络传播;以及（3）明智地选择节点特征（例如流出边的值之和）。请注意，在这种情况下，缺失属性的所有以节点为中心的特征都为零。
第三个属性，一致性，指出如果模型的值由于一个属性的重要性增加而改变，而不管其他属性如何，那么该属性的贡献不应该减少。对于这个特定的属性，我们没有任何理论结果来证明TableGraphNet可以保证一致性，但是，从数值上看，我们发现以节点为中心的特征的选择以及模型的训练方式确实会影响一致性。
此外，由于TableGraphNet实现了一个可加深集，因此它也遵守了由（Lundberg & Lee，2017年）和（安科纳等人，（2019年版）。也就是说，模型的输出与属性的顺序无关，并且属性或贡献遵循相同的属性顺序。
2.3.强化训练策略
通过利用missingness属性，我们设计了一种增强的训练策略，通过随机选择要用于训练的记录和要标记为缺失的属性，从表中生成无限数据集。在数值上，我们已经看到，随着epoch数量的增加，我们已经检查的一致性条件的百分比收敛到完全一致性。为了进一步理解缺失在训练中的作用，还需要进行更多的探索。目前，我们只测试了在记录中以50%的概率将属性标记为缺失。
有趣的是，尝试强制缺失和一致性会产生另一个好处：一种处理缺失数据的自然方法。因此，TableGraphNet不需要对原始数据集中的缺失值进行插补。

在这里插入图片描述
图1.TableGraphNet总体体系结构。数据集中的每条记录都表示为一组由模型训练过程中学习到的距离神经网络所诱导的图形。从每个图中，跨所有图提取并汇集以节点为中心的特征，以形成以属性为中心的特征。这些被馈送到一组贡献神经网络（与距离神经网络联合学习）以产生最终属性贡献，其总和产生近似于期望目标y的模型预测。

TableGraphNet的整体架构如图1所示。这个思想是从前面引用的著作中自然产生的。数据集中的每个记录/行都表示为一个图形或一系列图形。在图中，顶点对应于原始属性，边对应于这些属性之间的距离。通过每个记录的图形表示，我们可以提取以属性为中心的特征（例如，以每个属性为中心的成对距离的聚合），这些特征最终成为预测目标的加性深度集模型的输入。最后加法中的项表示每个单独属性的贡献。使用一组距离神经网络获得图形表示，这些距离神经网络与深度集模型中使用的贡献神经网络同时训练。

1)初始数据准备
初始数据准备包括扁平化数据集，以便我们获得一个N×M表，其中N是记录数，M是属性数。由于我们计划学习两个属性之间的距离函数，因此所有属性都被缩放到相同的范围。

2）Caribbean乘积变换
执行笛卡尔积变换以将N×M数据集转换为 $NM^{2}*2(E+1)$ 数据集，其中E ≥ 0，参见图2。因为对于每条记录，我们需要计算所有属性对之间的距离，这导致每条记录的M2距离计算。每个距离计算至少有两个参数，即与计算中涉及的两个属性对应的两个值。
在这里插入图片描述
图2.笛卡尔积变换与距离神经网络。M个属性的每个记录被转换成用于距离计算的 $M^{2}$ 个成对属性数据。每个属性都使用其值和编码（如one-hot-encoding）来表示，以便进行属性标识和提高模型性能。我们假设任何属性都与所有其他属性相关联，并且定义边缘值的距离是在训练期间学习的。每个距离神经网络在所有属性对之间共享，并且我们使用多个距离来提高模型的性能。

2）使用距离神经网络的图形表示
在这里插入图片描述

数据集中的每个记录/行使用一组图G = {Gj}j=1.其中每个图被定义为元组Gj = {Vj，Ej}。Vj = {xk}k=1.M是对应于原始属性的节点的集合，并且Ej = {（ej，k，l，xk，xl）}k，l=1.M是边的集合，其中xk是源，xl是接收器，并且ej，k，l是第j个图中从xk到xl的距离。
在这里插入图片描述
节点之间的距离使用神经网络建模，其参数在TableGraphNet的训练过程中学习。所有属性对共享相同的距离函数。
在此，enc（k）表示第k个属性的编码，并且xk是用于第k个属性中的特定记录的第k个属性的值。

3）属性中心特征和池化
考虑到数据集中的每条记录现在都是使用由学习的距离函数导出的一组图来表示的，我们可以继续从每个图中提取以节点/属性为中心的特征，然后将它们集中在图中。特征的示例包括图中每个节点的流出和/或流入边的值的聚合（例如，总和、平均值、最大值），或者使用PageRank确定的节点排名（Brin & Page，1998）。考虑流出边的值之和。最终的以属性为中心的特征是跨所有图聚合对应的以节点为中心的特征的结果（例如，级联，max）。考虑连接操作。
然而，该模型可以通过使用图形网络来扩展（Battaglia等人，2018）基于用于节点和边上的信息传播的附加参数化操作从原始诱导图导出新图。从这些衍生图中获得的信息可以比我们研究中目前使用的信息丰富得多，并将在未来的研究中进行探索。

4）贡献神经网络
在所有图形表示ak上提取和汇集的属性中心特征被馈送到一组贡献神经网络中，以计算每个属性的单独贡献。一个贡献神经网络在对应于原始属性的所有特征组之间共享。此外，为了提高模型的性能，我们提出将贡献神经网络的共享权重视为卷积神经网络中的滤波器（Chowdhury等人，2020年）的报告。
在这里插入图片描述
TableGraphNet的最终输出是通过将所有属性贡献沿着加上在模型训练期间学习的偏置项ρ0来给出的。
如前所述，模型的这一部分只是一个加性深集模型（Zaheer等人，2017），这确保了如果原始属性的相对顺序发生变化，它不会影响模型的最终输出。

3.实验
所有数值实验都在使用TensorFlow的4×NVIDIA V100 32GB计算服务器上运行（Abadi等人，2015）实施。
3.1.性能比较
为了评估TableGraphNet的性能，我们使用了UCI存储库中的8个数据集进行回归，3个数据集进行分类（Dua & Graff，2019）。将TableGraphNet的性能与密集神经网络的性能以及多过滤器神经网络的性能进行了比较，该多过滤器神经网络使用预定义的距离而不是学习图形表示的距离。
回归的性能度量是平均均方根误差（RMSE）沿着在5次试运行中获得的标准差。对于分类，我们还使用了5次试运行来计算曲线下面积（AUC）的平均值和标准差，并对多类问题进行了宏观平均。对于每次试运行，我们都随机对数据集进行了洗牌，并使用80%的数据进行训练和验证，20%的数据用于测试。
所有的模型都已经训练了最多10000个epoch，并且基于验证损失（回归的均方误差和分类的交叉熵）的早期停止标准。验证数据基于用于训练和验证的原始80%数据中的20%。所有模型都使用Adam优化器进行了优化（Kingma & Ba，2015）。在下面的段落中，我们将详细介绍如何获得性能比较中使用的三种模型。
回归：TableGraphNet。为了确定TableGraphNet回归的最佳架构，我们在Boston Housing数据集上使用了网格搜索策略，并选择了最好的4个模型，并在所有其他数据集上仅使用这些模型，并报告了这4个模型的最佳性能。我们改变了图的数量：{1，8}，距离神经网络的隐藏层和神经元的数量保持固定在（16，8），我们使用流出和流入边缘的总和作为以节点为中心的特征，并将它们连接在所有图上。贡献过滤器的数量已经改变：{1，8}，并且贡献神经网络的架构选自以下集合{（16），（24，8），（64，16，4）}。我们使用了系数为{0.01，0.5}的核L2正则化和以下学习率{0.0001，0.001}。TableGraphNet已经使用提前停止进行了训练，最小增量为0.01，耐心期为200。
回归：密集NN。作为参考，我们使用了具有以下隐藏层和神经元数量的密集神经网络：{（16），（24，8），（64，16，4）}。与TableGraphNet一样，我们使用了系数为{0.01，0.5}的内核L2正则化和以下学习率{0.0001，0.001}。密集神经网络已经使用早期停止进行了训练，在200的耐心期内最小增量为0.01。已在波士顿住房数据集上执行了Dense NN的网格搜索，并且在其余数据集上使用了表现最好的6个数据集，我们报告了这6个数据集中的最佳性能。
回归：多过滤NN。还测试了TableGraphNet的一个变体。区别在于距离函数是固定的，即两个属性值之间的绝对值。因此，我们只有一个诱导图。为了弥补与TableGraphNet相比缺乏额外的图，我们使用了许多以节点为中心的特性，例如属性的原始值node 2 vec（Grover & Leskovec，2016）（维度：5，行走长度：13，行走次数：3）和介数中心性（Freeman，1977）。这些以节点为中心的功能已与大小为{4，8，12}的贡献过滤器一起使用，具有以下架构：{（16），（6，6），（7，8），（24，8），（64，16，4）}。Adam优化器考虑的学习率为{0.1，0.01，0.001}，L2正则化的系数为{0.1，0.001}。Multifilter NN已使用提前停止进行训练，在500的耐心期内最小增量为0.001。与TableGraphNet和Dense NN相比，针对每个单独的数据集执行了网格搜索以获得最佳Multifilter NN模型。
回归结果见表1。我们注意到，除了海军推进之外，TableGraphNet的RMSE比Dense NN更好或在统计上没有差异，而Multifilter NN的整体性能比TableGraphNet和Dense NN都差。
分类-TableGraphNet。对于分类，我们使用了以下：图的数量：{2，16}，距离神经网络结构：（16，8），滤波器的数量：{2，16}，滤波器结构：{（16），（32，16，4），（64，32，16，4）}，L2正则化系数：{0.01，0.1，0.5}，学习速率：{0.001，0.0001}，最小δ为0.01，并且对于提前停止的耐心为200。已对每个分类数据集进行了单独的网格搜索。
分类-密集NN。在用于密集NN的网格搜索中使用了以下内容：体系结构：{（16），（32，16，4），（64，32，16，4）}，L2正则化系数：{0.01，0.1，0.5}，学习速率：{0.001，0.0001}，最小增量为0.01，并且对于提前停止，耐心为200。已对每个分类数据集进行了单独的网格搜索。
分类-多重过滤器NN。与回归中相同的节点中心特征也被用于分类。在网格搜索中已使用以下设置用于多滤波器NN：滤波器数目：{4，12}，滤波器架构：{（16），（32，16，4）}，L2正则化系数：{0.001，0.1}，学习速率：{0.01，0.001，0.0001}，最小增量为0.001，并且提前停止的耐心为500。已对每个分类数据集进行了单独的网格搜索。
分类结果见表2。除了Wine Quality白色之外，TableGraphNet的AUC在统计学上与Dense NN没有差异。与回归结果一样，Multifilter NN的性能比TableGraphNet和Dense NN都差。
总的来说，我们发现的结果是有希望的，一个可解释的架构不需要交易的准确性的可解释性。我们还观察到，学习属性之间的距离比使用预定义的距离（如在Multifilter NN中）提高了性能，即使它使用了更丰富的以节点为中心的特征。请注意，像node2vec这样的特性，因为是不可区分的，所以很难被整合到像TableGraphNet这样的架构中，它是使用基于梯度的方法训练的。
3.2.一致性检查
评估属性/贡献的质量是一项艰巨的任务，因为它需要一个标记的数据集来包括所有属性的重要性分数。在这一节中，我们关注的是检查2.2节中讨论的一致性属性。一致性性质（Lundberg & Lee，2017）指出，给定任意两个模型f（）和f（），如果f（z）− f（z/k）≥ f（z）− f（z/i），则ρ k（x）≥ ρi（x），其中所有的输入z都是从具有任何缺失属性子集的x导出的。这里，符号z/k等同于具有标记为缺失的第k个属性的输入z。
对于这个任务，我们在UCI手写数字数据集上进行了实验（Dua & Graff，2019）。请注意，建议将TableGraphNet用于表示明确定义的概念而不是像素的属性。此外，因为它需要创建一个全连接图，所以它不适合（至少不适合我们当前的实现）数千个属性，而是最多数百个。
然而，由于这个数据集只有64个属性，我们已经检查了所有k = 1的一致性条件。..64个属性和测试数据集中的所有样本，为原始数据集的30%。由于这是一个多类问题，我们在softmax层之前将f（），f（）设置为模型的输出，并在各种数字输出之间交替使用函数（例如f（）= f5（）和f（）= f9（））。这导致了3，104，640个待检查的条件，我们已经报告了符合一致性条件的百分比。除了一致性，我们还报告准确性。两个性能指标均在5次试运行中取平均值。试运行之间的差异只是模型的随机初始权重。
表3报告了所用5种型号的性能指标。所有TableGraphNet模型都具有相同的架构。即，具有距离架构（32，16）的32个图、具有贡献架构（32，16）的8个滤波器、0.02的L2正则化系数以及具有0.96的指数衰减率的0.001的学习率。我们考虑使用经典训练策略的模型，其中记录没有任何缺失数据，以及建议的增强训练，其中记录具有标记为缺失的随机属性，如第2.3节所述。
第一个观察结果是，以节点为中心的特征的类型影响准确性和一致性。第二个观察结果是，通过使用增强训练策略，我们看到一致性百分比的增加。这种增加随着时期的数量增加而持续，并且似乎与模型的准确性呈正相关。也就是说，更好的可解释性会产生更好的准确性。
我们还注意到，我们没有看到切换到增强训练策略后准确性的显著下降，但由于数据丢失，它确实需要更多的时期。
图3描绘了三个不同输入的像素贡献的示例。请注意，像素值已缩放以覆盖范围[10−6，1]。我们保留了0值以容纳丢失的像素，其值我们不知道。这是有意义的，因为白色像素即使在原始数据集中的值为0，它们也包含显著信息，并且人们期望它们的贡献为非零，如图所示。在前两行中，模型预测与真实标签匹配，而在最后一行中，模型错误标记了输入图像。
虽然所有像素都提供了各种贡献，但我们专注于最负的贡献来解释9和3之间的差异。在第一行中，在位置（2，5）和（3，5）中的9的预测中看到的负贡献是预期的，因为由于3的曲率，这些位置中的像素非常亮，而对于9，我们预期它们更暗-参见第二行中的输入图像。因此，它们对9的预测有负面影响。
在第二行中，在位置（4，4）中的预测3中看到的负贡献也是预期的，因为由于该区域中的中空度9，该位置中的像素预期更亮，而对于3，我们预期它更暗，因为它是3的拐点-参见第三行中的输入图像。最后，在第三行中，位置（3，5）预测9的负贡献不足以克服与预测3非常相似的正贡献。

4.结论
在本研究中，提出一个新的架构TableGraphNet，以联合提供预测和解释的形式，为表格数据的特征属性。体系结构的设计包含了对特性属性的公理化观点。TableGraphNet包含Shapely值所需的局部精度和缺失属性。此外，我们还通过实验观察到，利用缺失特性的所提出的增强训练策略的使用也增加了满足一致性特性的机会。采用这种公理化观点的副产品是TableGraphNet不需要插补，因为它固有地容纳缺失数据，并且它还遵守对称性保留属性，即输出不受属性顺序的影响。由于TableGraph Net构造了一个完全连接的图，其中每个节点都表示一个属性，因此一个明显的限制是在训练过程中可以使用的属性的数量。这种限制可以通过更有效的实现来克服。未来的研究方向包括对以节点为中心的特性及其对一致性的影响进行更深入的研究。

代码

链接: code

// An highlighted block
var foo = 'bar';

论文

链接: paper

2puss2

（**关注的地方**：第二遍阅读的时候，最重要是搞明白那些重要的图和表，
都要知道他每一个字在干什么事情作者提出的方法和别人提出的方法是怎么进行对比的？之间差距有多大？
比如：方法里面的流程图、算法图长什么样子，实验里的每张xy轴代表什么、每个点的意思，
作者提出的方法和别人的方法怎么对比、之间差距有多大。）

（**达到的效果**：第二遍阅读完之后，你就对整个论文的各个部分，都有一个大概的了解，
中间可以把作者引用的别人的相关文献圈出来，比如作者是在某某某的方法上进行了改进，做了哪些改进之类的。
这里需要注意的是，如果你发现作者引用的这些重要文献是你没有读过的，
那么你需要把它圈出来，作为你的稍后阅读清单（圈出相关的文献，那些方法是xxx提出的，再xxx的方法上改进的））

（**对后续的影响**：这一遍阅读之后，你需要再继续思考一下这篇论文的质量以及和自己研究方向的契合程度，
决定一下自己要不要进行第三遍的完完全全彻底的精读（解决了什么问题，结果怎么样，用了什么方法。决定要不要继续往下精读puss3。））

2.3小结

3puss3

如果要是我来写这篇文章，我会如何组织这个结构？
问题是怎么提出的、如果是我来做这个事情的话该怎么办，我应该可以用什么方法来实现、
实验我应该这么做，能不能比他做得更好、我怎么做没有往前走的部分。
--脑补出它整个流程是什么样子的，似乎是自己在做实验，写论文一样。
第三遍之后，关上文章也能会回忆出很多细节的部分和整体流程，之后在基于它做研究时（可以详详细细的复述一遍）。