【论文阅读】Layerwise Change of Knowledge in Neural Networks

来源

题目:Layerwise Change of Knowledge in Neural Networks
作者:Xu Cheng, Lei Cheng, Zhaoran Peng, Yang Xu, Tian Han, Quanshi Zhang
时间:10 Jun 2024
会议:ICML 2024 Poster
链接

关键词

可解释机器学习,神经网络,图像数据,基于概念的解释,基于扰动的方法

主要内容

  • 深度神经网络如何在前向传播的路上提取新知识、忘记旧(嘈杂的)知识

背景

  • 学界还没有对DNN中编码的知识做出统一的定义。
  • 文献Li&Zhang(2023);Ren(2023a;2024)将交互(interactions)作为神经网络编码的符号推理模式。
    • 神经网络编码了概念。这些概念是输入特征之间的交互(下文交互=概念)。
    • 例:给定一张狗图像,DNN隐式编码的每个交互表示S={眼睛,鼻子,嘴巴}中输入变量(图像片段)之间的共现关系。这实际上是图像z中的图像片段之间的AND关系,只有当S中的所有片段都出现在图像中时,交互S才会被激活并对分类分数产生数值效应I(S|z)。掩蔽任何补丁都会使交互S失效并移除效果。
  • 交互具有稀疏性和普遍匹配性。
    • 稀疏性:给定一个输入样本,一个训练良好的DNN通常只隐式地编码输入变量之间的少量交互,推理分数可以解释为相互作用的数值效应。1
    • 普遍匹配性:模型在扰动样本上的输出可以表示成概念的效果的组合。1

GAP

  • NN学到的知识不能量化
  • 不同层知识对不齐,不能衡量层间知识的变化

方法、实验、结论

交互的定义

  • AND交互:所有特征都存在,则对NN最终预测或中间变量产生效应,效应表示为单个特征效应之和。
    • Harsanyi dividend(1959)。它可以归纳地定义为:空集合的贡献为零,玩家集合的任何其他可能的组合的贡献等于该组合的价值减去该组合的所有适当子集的贡献之和。因此,Harsanyi贡献可以被解释为“TU游戏(transferable utility game)中合作的纯粹贡献”(Billotand Thisse,2005)。如果所有可能组合的Harsanyi贡献在其成员之间均匀分布,则每个参与者的贡献等于Shapley值(Shapley1953b)。23
  • OR交互:任何特征存在,即产生完整效应。
    • Harsanyi dividend(1959)。
  • 稀疏性和普遍匹配性保证了基于交互的解释是忠实的。
    • 神经网络的预测可以分解为AND和OR交互(普遍匹配性)
    • 绝大多数交互都几乎对预测不起作用,可以用一小组显著交互去近似输出。(稀疏性)
  • (实验验证交互的稀疏性:仅少量交互具有显著贡献)

如何提取交互

  • 现有方法只使用模型预测提取最后一层的交互,但是隐层没有标量输出,只有高维矩阵
  • 扩展到隐层:
    • 使用隐层特征训练线性分类器进行预测
    • 定义分类分数为线性分类器预测概率的log-odds+bias
    • 交互的阶:参与特征数量
  • (实验:每个隐层和最后一层有多少相同的交互)
    • 浅层交互强度高(对预测影响显著)
    • 浅层和中间层已经学到了比较完备(隐层交互有多少在最后一层交互中保留了)的交互。最后一层使用的交互在很浅的层就学到了。注:我们一般认为交互来自的层数和交互的阶数相关,即后面的层把前面的层学到的简单交互编码成了复杂交互,这篇文章没有明说,但是实验结果显示浅层已经学到了高阶交互。
    • DNN最后几层主要作用是去除冗余。
  • (实验:交互的泛化能力。不同模型在同一个任务上提取到的交互是否一样。)
    • 低阶交互(参与特征数量少)泛化性更好
  • (实验:交互对噪声的稳定性。添加高斯噪音,衡量交互的强度的均值与标准差之比的期望。)
    • 低阶交互对噪声更稳定。
    • 低阶交互在所有层的强度/效应/显著性往往是一致的。低阶相互作用可能更容易泛化到相似样本上。

  1. Ren, 2024. Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in DNNs. https://openreview.net/forum?id=3pWSL8My6B ↩︎ ↩︎

  2. Ren, Jie, et al. “Towards axiomatic, hierarchical, and symbolic explanation for deep models.” (2021). ICLR 2022 Withdraw. https://openreview.net/forum?id=I7Tuih6s7Dj ↩︎

  3. Besner, M. Value dividends, the Harsanyi set and extensions, and the proportional Harsanyi solution. Int J Game Theory 49, 851–873 (2020). https://doi.org/10.1007/s00182-019-00701-4 ↩︎

  • 7
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值