Explainable machine learning
可解释性和网络能力一般难两全
Local Explanation
为什么你认为这个图片属于类别y?
-
Remove-based
将部分移除,如果对结果影响大那么说明该部分重要(移除部分大小?) -
Gradient-based
y t r u e y_{true} ytrue对输入做微分,值比较大的像素点重要 -
Model-based
使用一个简单网络来模拟另一个网络的一部分- Linear(LIME)
- Decision Tree
-
有针对explanation的攻击,输入差不多,输出相同,解释差别较大。
Global Explanation
反向对x做opt,使得
y
t
r
u
e
y_{true}
ytrue最大 + 约束x属于输入域
可使用 Generator 做约束