来源
题目:Layerwise Change of Knowledge in Neural Networks
作者:Xu Cheng, Lei Cheng, Zhaoran Peng, Yang Xu, Tian Han, Quanshi Zhang
时间:10 Jun 2024
会议:ICML 2024 Poster
链接
关键词
可解释机器学习,神经网络,图像数据,基于概念的解释,基于扰动的方法
主要内容
- 深度神经网络如何在前向传播的路上提取新知识、忘记旧(嘈杂的)知识
背景
- 学界还没有对DNN中编码的知识做出统一的定义。
- 文献Li&Zhang(2023);Ren(2023a;2024)将交互(interactions)作为神经网络编码的符号推理模式。
- 神经网络编码了概念。这些概念是输入特征之间的交互(下文交互=概念)。
- 例:给定一张狗图像,DNN隐式编码的每个交互表示S={眼睛,鼻子,嘴巴}中输入变量(图像片段)之间的共现关系。这实际上是图像z中的图像片段之间的AND关系,只有当S中的所有片段都出现在图像中时,交互S才会被激活并对分类分数产生数值效应I(S|z)。掩蔽任何补丁都会使交互S失效并移除效果。
- 交互具有稀疏性和普遍匹配性。
GAP
- NN学到的知识不能量化
- 不同层知识对不齐,不能衡量层间知识的变化
方法、实验、结论
交互的定义
- AND交互:所有特征都存在,则对NN最终预测或中间变量产生效应,效应表示为单个特征效应之和。
- OR交互:任何特征存在,即产生完整效应。
- Harsanyi dividend(1959)。
- 稀疏性和普遍匹配性保证了基于交互的解释是忠实的。
- 神经网络的预测可以分解为AND和OR交互(普遍匹配性)
- 绝大多数交互都几乎对预测不起作用,可以用一小组显著交互去近似输出。(稀疏性)
- (实验验证交互的稀疏性:仅少量交互具有显著贡献)
如何提取交互
- 现有方法只使用模型预测提取最后一层的交互,但是隐层没有标量输出,只有高维矩阵
- 扩展到隐层:
- 使用隐层特征训练线性分类器进行预测
- 定义分类分数为线性分类器预测概率的log-odds+bias
- 交互的阶:参与特征数量
- (实验:每个隐层和最后一层有多少相同的交互)
- 浅层交互强度高(对预测影响显著)
- 浅层和中间层已经学到了比较完备(隐层交互有多少在最后一层交互中保留了)的交互。最后一层使用的交互在很浅的层就学到了。注:我们一般认为交互来自的层数和交互的阶数相关,即后面的层把前面的层学到的简单交互编码成了复杂交互,这篇文章没有明说,但是实验结果显示浅层已经学到了高阶交互。
- DNN最后几层主要作用是去除冗余。
- (实验:交互的泛化能力。不同模型在同一个任务上提取到的交互是否一样。)
- 低阶交互(参与特征数量少)泛化性更好
- (实验:交互对噪声的稳定性。添加高斯噪音,衡量交互的强度的均值与标准差之比的期望。)
- 低阶交互对噪声更稳定。
- 低阶交互在所有层的强度/效应/显著性往往是一致的。低阶相互作用可能更容易泛化到相似样本上。
Ren, 2024. Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in DNNs. https://openreview.net/forum?id=3pWSL8My6B ↩︎ ↩︎
Ren, Jie, et al. “Towards axiomatic, hierarchical, and symbolic explanation for deep models.” (2021). ICLR 2022 Withdraw. https://openreview.net/forum?id=I7Tuih6s7Dj ↩︎
Besner, M. Value dividends, the Harsanyi set and extensions, and the proportional Harsanyi solution. Int J Game Theory 49, 851–873 (2020). https://doi.org/10.1007/s00182-019-00701-4 ↩︎