个人水平有限,感觉论文写得不太容易理解
Axiomatic Characterization of Data-Driven Influence Measures for Classification
该论文特征影响力的计算是针对分类的情况,而且感觉是二分类,最重要的是下面这个影响力的计算公式
ϕ
(
x
⃗
,
X
,
c
)
=
∑
y
⃗
∈
X
\
x
⃗
(
y
⃗
−
x
⃗
)
α
(
∥
y
⃗
−
x
⃗
∥
)
l
(
c
(
x
⃗
)
=
c
(
y
⃗
)
)
\phi(\vec{x}, \mathcal{X}, c)=\sum_{\vec{y} \in \mathcal{X} \backslash \vec{x}}(\vec{y}-\vec{x}) \alpha(\|\vec{y}-\vec{x}\|) \mathbb{l}(c(\vec{x})=c(\vec{y}))
ϕ(x,X,c)=y∈X\x∑(y−x)α(∥y−x∥)l(c(x)=c(y))
l
(
p
)
=
{
1
p
i
s
t
r
u
e
−
1
o
t
h
e
r
w
i
s
e
l(p)=\left\{\begin{matrix} 1&p\ is \ true\\ -1& otherwise\end{matrix}\right.
l(p)={1−1p is trueotherwise
影响函数是针对特定样本的,也就是说
ϕ
(
x
⃗
,
X
,
c
)
\phi(\vec{x}, \mathcal{X}, c)
ϕ(x,X,c)表达是样本x中的各个特征对样本x的分类结果的影响。
ϕ
(
x
⃗
,
X
,
c
)
i
\phi(\vec{x}, \mathcal{X}, c)_i
ϕ(x,X,c)i表示第i个特征对分类的影响。
α
(
∥
y
⃗
−
x
⃗
∥
)
\alpha(\|\vec{y}-\vec{x}\|)
α(∥y−x∥)是一个待定的非负递减的加权函数,y和x的距离越远,权值越小,因此和x相近的样本对计算特征影响力会比较重要。上述公式相当于一个比较简单的统计,统计了类内与类间的特征变化趋势。个人不十分理解这种做法的有效性
ϕ
(
x
⃗
,
X
,
c
)
i
\phi(\vec{x}, \mathcal{X}, c)_i
ϕ(x,X,c)i表达的是增加或者减少该特征的值,对x分类结果的影响。如果各个变量存在量纲不同,似乎也不能直接作为影响程度比较。
这篇文章虽然引用了understanding Black-box Predictions via Influence Functions,但和这篇文章没有什么直接联系。初步感觉过来,个人觉得不是十分有用
论文阅读:Axiomatic Characterization of Data-Driven Influence Measures for Classification
最新推荐文章于 2024-06-21 11:38:42 发布