我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。
已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-notes
本节内容综述
- 助教讲解,日期为4月6日,主讲人
杨书文
。 - 首先将背景,对之前内容复习。
- 第一部分,
Attribution
,首先是What and why attribution?
- 上节课老师讲过,
Local gradient-based
,存在一些局限性(如大象鼻子的例子)。在肉眼无法看出来的情况,加一些noise,会影响结果。因此引出SmoothGrad
解决Noisy gradient
,考虑到了增加噪音来训练。 - 接着,引出
Global attribution
来解决Saturation
问题。介绍了Layer-wise relevance propagation(LRP)
方法。 - 接着,进行
Completeness
的讨论。衡量变量变化的影响。考虑到了比如DeepLIFT
和Integrated gradient
方法。 - 进行了一个小结,见 Take-away message。现在做 attribution method 很多方法,可能画出来的图很好看,但是未必有意义。后来,有人提出
Sensitivity-n
来衡量你的方法好不好。还提及了Occlusion-1
。 - 接下来进入 Probing 部分。先介绍了 BERT 的结构,作为背景知识。BERT的每一层做了不同的事;此外,研究者发现BERT可能有理解不到的东西。
Heatmap
部分。- 最后的部分,讲解
Create an explainable model
。
文章目录
小细节
What and why attribution?
What:
- importance assignment for each input
- How each
INPUT
influencesOUTPUT
in anend-to-end
fashion
Why:
- Know
how model utilizes input
to produce output - Useful for both customers and researchers
SmoothGrad
M ^ c ( x ) = 1 n ∑ 1 n M c ( x + N ( 0 , σ 2 ) ) \hat{M}_c(x) = \frac{1}{n}\sum_{1}^nM_c (x+\mathcal{N}(0, \sigma^2)) M^c(x)=n1