Making CNNs Interpretable 通过自上而下的层次学习构建动态顺序决策森林使 CNN 具有可解释性

Paper: https://arxiv.org/abs/2106.02824

Making CNNs Interpretable by Building Dynamic Sequential Decision Forests with Top-down Hierarchy Learning

摘要:在本文中,我们提出了一种通用模型转移方案,使卷积神经网络 (CNN) 可解释,同时保持较高的分类精度。我们通过在 CNN 之上构建可微决策森林来实现这一点,它具有两个特征:

  1. 训练过程中,在预先训练好的CNN权值中嵌入的类别语义指导下,采用自上而下的方式学习森林的树形层次结构;
  2. 在推理过程中,从森林中为每个输入样本动态选择单个决策树,使转移的模型能够根据语义相似的类别共享的属性做出顺序决策,而不是直接执行平面分类。

我们将转移模型命名为深度动态顺序决策森林 deep Dynamic Sequential Decision Forest (dDSDF)。实验结果表明,dDSDF 不仅比原始 CNN 实现了更高的分类精度,而且具有更好的可解释性,因为它在定性上具有合理的层次结构,在定量上它导致更精确的显著图。

1 Introduction

决策树在推理过程中进行顺序决策,由于其简单性和可解释性,是各种视觉识别任务中最受欢迎的机器学习模型。鉴于决策树与CNN的互补性,人们已经做了大量的工作来将这两个领域结合起来,目的是建立一个更好的模型,既能提供高性能,又能提供良好的可解释性。然而,这些尝试几乎没有达到预期。它们的缺点是:1)由于追求高性能而牺牲了可解释性;2)由于强加了可解释性而导致性能下降;3)缺乏通用性,即它们只为指定的CNN设计。

为了解决这些问题,我们提出了一种新的方案,将CNN和决策树相结合,这是一种通用的模型转换方案,能够在保持CNN高分类精度的同时使任何CNN具有可解释性。给定一个预先训练的CNN,我们通过在其上面建立可微决策森林(树集成)来将其转换为可解释模型:每个树分裂节点连接到CNN最后一个完全连接层的神经元,因此每个分裂节点所做的决策由其相应神经元的输出决定。直观地说,由于CNN的联合树集成学习和表示学习,该模型传输方案可以保证较高的模型精度。为了使转移的模型可解释,我们设计了两种森林建设机制:

  1. 一种自上而下的分层学习机制,它将可解释的语义强加给沿着树路径从根到叶节点的顺序决策。具体地说,在CNN预先训练的权值中嵌入的范畴语义的指导下,我们设计了一个准则来形成分裂节点与神经元之间的对应关系。这个标准导致了一个层次结构,它以自上而下的方式隐式地对语义相似的类别进行聚类,使得它们可以共享相同的决策路径,从中可以提取一些语义上看似合理的属性来解释每个决策。
  2. 一种动态树系综细化机制,其在推理期间为每个输入样本选择单个最具代表性的树,以便可以解释该系综。我们将转移模型命名为深度动态序列决策森林(DDSDF),因为它动态地从森林中查询单个树预测器,并在深层网络之上做出顺序的语义合理的决策。我们进一步提出了一种基于决策树的类激活图(CAM)方法(因为在推理过程中只选择一棵树作为输入样本),并证明了dDSDF可以生成比其对应部分(即原始CNN)更精确的显著图来解释其预测。

在CIFAR、tinyImageNet和ImageNet等几个基准数据集上的实验结果验证了dDSDF的优势:1)与其对应的CNN相比,它的分类准确率更高;2)它有更好的可解释性,因为在定性上它有一个语义上可信的层次,在数量上它导致了更精确的显著图。

2相关工作

近年来,为了获得更高的性能或更好的可解释性,人们已经做出了大量的努力来将深层网络和决策树相结合。

2.1 组合以实现更高的性能

利用树状架构构建深度网络。 通过这种策略,数据样本仅访问网络中的一小部分神经元。Ioannou 等人2016年提出的条件网络,其中引入了数据路由器,表示为感知器,将传入数据发送到选定的子分支。Tanno 等人2019年提出了自适应神经树,它通过贪婪地搜索三种树生长选择来学习树的拓扑结构:分裂、保持和加深。Roy 等人2020年提出了一种具有树结构的 CNN,它是通过以树状方式增长 CNN 来构建的,以处理具有不可见类的数据。Murthy 等人2016年提出了一个由数据驱动的树状结构化网络模型。从根网络节点开始,这个树状结构化网络模型自动构建一个网络,将困难示例拆分为不相交的类集群,这些类将由后续专家网络处理。Xiong 等人2015年提出了一种条件卷积神经网络(c-CNN)来处理多模态人脸识别。在 c-CNN 中,不同模态的人脸样本沿着模态特定的路线传递,逐渐逐层分离,最终传递到不同的叶节点。与普通神经网络相比,这种组合策略受到大量额外参数的影响,因为数据路由器通常表示为另一个深度路由网络。此外,此类模型总是需要为特定任务精心设计网络,使其难以重用和转移。

在深层网络之上构建决策树。 [32, 9]该策略根据网络或神经元的输出定义树的分裂函数,可以直接受益于现有复杂的深度网络。Bulò 和 Kontschieder提出随机多层感知器(rMLP)作为新的分裂函数,它能够学习非线性、特定于数据的表示,并通过为新兴子节点找到最佳预测来利用它们。通过引入 rMLP,可以共同解决随机决策树中的数据表示和判别学习。然而,表示仅在分裂节点级别本地学习,并且在分裂节点之间独立学习。Kontschieder等人2015年提出了深度神经决策森林(dNDF),它将每个分裂节点连接到深度网络的全连接(FC)层中的神经元。根据对应神经元的输出值在每个分裂节点定义概率分裂函数,并在树上定义全局损失函数。这确保了可以与深层网络联合学习分裂节点参数和叶节点预测。该组合策略具有良好的性能:可以对网络参数、分裂节点的数据空间划分和叶子节点的数据分布抽象进行联合优化。于是,后面很多工作都遵循了这条路线。Roy 和 Todorovic[25] 2016年 用一个小的 CNN 表示每个分割函数,并使用这个基于树的 CNN 进行深度估计。Chen等人2016年[5] 扩展 dNDF 以处理域适应问题。Zhu等人2017年 [43] 在 dNDF 的基础上提出了 Deep Embedding Forest,用于深度文本特征挖掘。shen 等人[31, 29, 30] 分别提出标签分布学习森林(LDLF)和深度回归森林(dRF),扩展dNDFs进行标签分布学习和回归,并验证了LDLF和dRF对年龄估计的有效性。Pan等人[22]进一步将自定进度学习引入dRF。尽管这些基于 dNDF 的模型取得了出色的预测性能,但牺牲了决策树的可解释性。原因有二:

  1. dNDFs中分裂节点和神经元的对应关系是随机分配的,导致树层次结构没有类别语义和推理过程中无法解释的决策;
  2. 森林牺牲了决策树中存在的内在可解释性,因为遵循树集合的决策路径变得难以处理。

我们提出的 dDSDF 通过明确学习分裂节点和神经元之间的对应关系解决了第一个问题,从而导致与语义相似类别共享的属性相对应的顺序决策;并且它通过引入动态树集成细化机制解决了第二个问题,该机制在对每个输入样本的推理过程中选择一个最具代表性的决策树。

2.2 组合以获得更好的可解释性

作为公认的可解释模型,利用决策树来解释神经网络是直观的。Frosst 和 Hinton [7] 2017年通过将深度网络获得的知识提炼成软决策树来实现这一点。Hehn 等人[10] 2020年引入了一种贪婪树结构构建方案来构建具有数据特定结构的不平衡 DNDFs,以获得更好的可解释性。但是,该方案获得的模型仅适用于小规模数据集,例如 MNIST [19]。由于树结构构建中的一些 GPU -unfriendly操作,该方案的可扩展性值得怀疑。张拳石等人 [41]2019年 对 CNN 过滤器实施了局部约束,以便 CNN 的每个通道都具有图像的特定部分。然后他们在 CNN 之上构建了一个决策树,并通过从上到下遍历决策树来解释 CNN 的决策原理,形成一条从一般类别的公共部分到少数样本的独特部分的路径。但是,这种模型迁移方案仅适用于他们设计的定制 CNN,这限制了其在通用 CNN 上的使用。Wan等人[35] 2021年提出了神经支持决策树(NBDT),它通过在 CNN 之上构建决策树将 CNN 转换为可解释的模型。决策树是通过基于嵌入在预训练 CNN 权重中的类别相似性执行凝聚层次聚类形成的,并且可以与 CNN 进行微调以享受高性能的好处。然而,这种基于聚类的自下而上的树构建方案仅依赖于预训练的 CNN 权重,因此在没有预定义的 WordNet [20] 的情况下,可能无法在大型数据集(例如 ImageNet [27])上产生人类理解的层次。与 NBDT 不同,所提出的 dDSDF 中的每棵树都是以自顶向下的方式构建的,使我们能够在构建的层次结构中从上到下考虑类别相似性和类别级统计路由相似性之间的一致性。

3 Methodology

3.1 Problem Statement问题陈述

6 Conclusion

我们提出了一种通用模式转移方案,使 CNN 具有可解释性,同时保持其高分类性能。我们通过深度动态顺序决策森林的提议实现了这一点。这片森林有两个属性:

  1. 在嵌入在预训练的 CNN 权重中的类别语义的指导下,以自上而下的方式学习该森林中的每个树层次结构;
  2. 引入了动态树选择机制,在推理过程中为每个输入样本从森林中选择一棵树。

这两个属性使森林能够做出可解释的顺序决策。实验结果验证了 dDSDF 不仅比原始 CNN 实现了更高的分类准确率,而且在定性和定量上都具有更好的可解释性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值