期刊
PLOS one
一个风评不佳的水刊,但这篇论文算是精品,很多顶会顶刊都有引用
论文内容
目的
找出输入像素x的每个输入像素
x
(
d
)
x_{(d)}
x(d)对特定预测
f
(
x
)
f(x)
f(x)的贡献
主要思想的公式
f
(
x
)
≈
∑
d
=
1
V
R
d
f(x)\approx \sum_{d=1}^VR_d
f(x)≈∑d=1VRd
主要思想的图片
提出的新概念
LRP,layer-wise relevance propagation 相关性分数逐层传播
- 提出的这一方法不涉及图像分割
- 方法建立在预先训练好的分类器之上
- LRP作为由一组约束定义的概念,满足约束的方案都认为遵守LRP,作者给两个特定分类器订制了解决方案。本文只关注LRP在多层网络(Multilayer Networks)上的思想。ps:也不关注泰勒分解。
LRP较详解
像上图右侧部分所示,对于LRP来说,第一层是输出,最后一层是输入
每一层各个维度(某个维度就是某个神经元)的相关性之和守恒
f
(
x
)
=
…
=
∑
d
∈
l
+
1
R
d
l
+
1
=
∑
d
∈
l
R
d
l
=
…
=
∑
d
R
d
1
f(x) = …=\sum_{d\in l+1}R_{d}^{l+1}=\sum_{d\in l}R_{d}^{l}=…=\sum_{d}R_{d}^{1}
f(x)=…=∑d∈l+1Rdl+1=∑d∈lRdl=…=∑dRd1
Multilayer Network之LRP
一般的网络(Multilayer Network)可以表示为:
z
i
j
=
x
i
w
i
j
,
z_{ij} = x_{i}w_{ij},
zij=xiwij,
z
j
=
∑
i
z
i
j
+
b
j
,
z_{j} = \sum_{i}z_{ij}+b_j,
zj=∑izij+bj,
x
j
=
g
(
z
j
)
x_{j} = g(z_{j})
xj=g(zj)
解释:
①神经元i*神经元i与神经元j之间的权重,得到zij
②把所有神经元到神经元j的zij合起来加上bias term 偏置项,得到上一层所有神经元到神经元j的向量zj
③经激活函数g(like sigmoid relu)处理得到下一层神经元xj
- 泰勒部分
不看 - LRP部分——Layer-wise relevance backpropagation
下图是图形示例
对于 R i ← j ( l , l + 1 ) R_{i\leftarrow j}^{(l,l+1)} Ri←j(l,l+1)含义的示意图
工作原理:
Knowing the relevance of a certain neuron R j ( l + 1 ) R_{j}^{(l+1)} Rj(l+1)for the classification decision f ( x ) f(x) f(x), one would like to obtain a decomposition of such relevance in terms of messages sent to neurons of the previous layers. We call these messages R i ← j R_{i\leftarrow j} Ri←j
了解特定神经元与分类决策函数
f
(
x
)
f(x)
f(x)的相关性
R
j
(
l
+
1
)
R_{j}^{(l+1)}
Rj(l+1),希望根据发送到前一层(靠近input为前)的神经元的消息来获得这种相关性的分解,称这些消息是
R
i
←
j
R_{i\leftarrow j}
Ri←j。
其中,
∑
i
\sum_{i}
∑i :给定层所有神经元之和;
∑
j
\sum_{j}
∑j :某一层所有神经元之和
公式为:
∑
i
R
i
←
j
l
,
l
+
1
\sum_{i}R_{i\leftarrow j}^{l,l+1}
∑iRi←jl,l+1 =
R
j
(
l
+
1
)
R_{j}^{(l+1)}
Rj(l+1)
含义:
l
+
1
l+1
l+1层的某个神经元j的相关性
=
=
=
l
+
1
l+1
l+1层的神经元
j
j
j给
l
l
l层所有神经元的相关性之和
z:向量(
l
+
1
l+1
l+1层所有的神经元合起来)
一个线性网络
,在这里,相关性分数为
R
j
=
f
(
x
)
R_{j} = f(x)
Rj=f(x),这样的话,分解可以直接由式子得到
R
i
←
j
=
z
i
j
R_{i\leftarrow j} = z_{ij}
Ri←j=zij。然而,一般情况下,激活神经元xj对于zj来说是非线性的函数,对于这种,有两种公式,一种是对于激活函数是双曲正切tanhx或者修正函数max(0,x)可以用以下第一个公式,其他的可以用第二个。
在实际应用中,LRP有两种改进形式,分别是
ϵ
−
r
u
l
e
\epsilon-rule
ϵ−rule(第一个) 和
β
−
r
u
l
e
\beta -rule
β−rule(第二个)