AAAI24
推荐指数: #paper/⭐
领域:异常检测
摘要
这篇文章是关于一种新型的基于图神经网络(GNN)的欺诈检测方法,称为SEC-GFD(Spectrum-Enhanced and Environment-Constrainted Graph Fraud Detector)。文章首先讨论了基于图的欺诈检测(GFD)的重要性和挑战性,特别是考虑到欺诈图通常具有异质性(heterophily)的特点,即欺诈节点与其邻居节点的类别标签或特征往往不同。这使得许多传统的GNN模型表现不佳,因为它们通常假设同质性(homophily)。
胡言乱语
直接看下图:其实就是把高通,低通,高通滤波器的高阶组成了混通滤波器,然后再用低通滤波器与KNN图的限制视角来限制整个过程。(第二个的逻辑没有想明白,感觉只是简单的组合)。因此,只给了一颗星
全局框架
混合带通滤波器
为了将频谱划分为合适的频段,我们使用BWGNN作为我们的backborn
W
p
,
q
=
U
β
p
,
q
∗
(
Λ
)
U
T
=
(
L
2
)
p
(
I
−
L
2
)
q
2
B
(
p
+
1
,
q
+
1
)
,
\mathcal{W}_{p,q}=U\beta_{p,q}^*(\Lambda)U^T=\frac{(\frac L2)^p(I-\frac L2)^q}{2B(p+1,q+1)},
Wp,q=Uβp,q∗(Λ)UT=2B(p+1,q+1)(2L)p(I−2L)q,
其中,
p
+
q
=
C
p+q=C
p+q=C
解耦光谱进入C+1个频谱区域
W
=
(
W
0
C
,
W
1
C
−
1
,
⋯
,
W
C
0
)
.
\mathcal{W}=(W_{0 C},W_{1 C-1},\cdots,W_{C 0}).
W=(W0C,W1C−1,⋯,WC0).
但是,这样做,低阶邻居的高阶信号会缺乏。因此,我们使用如下filter去过滤:
R
1
:
F
H
1
ε
I
−
A
~
=
(
ε
−
1
)
I
+
L
,
R
2
:
F
H
2
=
(
ε
I
−
A
~
)
2
=
(
(
ε
−
1
)
I
+
L
)
2
,
R
C
−
1
:
F
H
C
−
1
=
(
ε
I
−
A
~
)
C
−
1
=
(
(
ε
−
1
)
I
+
L
)
C
−
1
.
\begin{aligned} R_{1}:\mathcal{F}_{H}^{1}& \varepsilon I-\tilde{A}=(\varepsilon-1)I+L, \\ R_2:\mathcal{F}_{H}^{2}& =(\varepsilon I-\tilde{A})^2=((\varepsilon-1)I+L)^2, \\ R_{C-1}:\mathcal{F}_{H}^{C-1}& =(\varepsilon I-\tilde{A})^{C-1}=((\varepsilon-1)I+L)^{C-1}. \end{aligned}
R1:FH1R2:FH2RC−1:FHC−1εI−A~=(ε−1)I+L,=(εI−A~)2=((ε−1)I+L)2,=(εI−A~)C−1=((ε−1)I+L)C−1.
下一步,我们使用拼接操作去合并更多的信息:
H
y
b
r
i
d
=
C
o
n
c
a
t
(
W
,
R
)
=
(
W
0
,
C
,
W
1
,
C
−
1
,
⋯
,
W
C
,
0
⏞
(C+1) Band-pass
,
R
1
,
⋯
,
R
C
−
1
⏞
(C-1) High-pass
)
.
\begin{aligned}&Hybrid=Concat(\mathcal{W},\mathcal{R})\\&=(\overbrace{W_{0,C},W_{1,C-1},\cdots,W_{C,0}}^{\text{(C+1) Band-pass}},\overbrace{R_{1},\cdots,R_{C-1}}^{\text{(C-1) High-pass}}).\end{aligned}
Hybrid=Concat(W,R)=(W0,C,W1,C−1,⋯,WC,0
(C+1) Band-pass,R1,⋯,RC−1
(C-1) High-pass).
消息聚合函数对于每个band的消息分别传播:
H
0
=
M
L
P
(
X
)
,
B
i
=
W
i
,
C
−
i
H
0
H
j
=
R
j
H
0
,
H
=
f
a
g
g
(
B
0
,
⋯
,
B
C
,
H
1
,
⋯
,
H
C
−
1
)
,
\begin{aligned} &H_{0} =MLP(X), \\ &\mathcal{B}_{i} =W_{i,C-i}H_0\quad\mathcal{H}_j=R_jH_0, \\ &\text{H} =f_{agg}(\mathcal{B}_{0},\cdots,\mathcal{B}_{C},\mathcal{H}_{1},\cdots,\mathcal{H}_{C-1}), \end{aligned}
H0=MLP(X),Bi=Wi,C−iH0Hj=RjH0,H=fagg(B0,⋯,BC,H1,⋯,HC−1),
我们使用和BWGNN一样的加权CE-loss来训练模型:
L
h
y
b
r
i
d
=
∑
v
∈
V
[
δ
y
v
log
p
v
+
(
1
−
y
v
)
log
(
1
−
p
v
)
]
,
\mathcal{L}_{hybrid}=\sum_{v\in\mathcal{V}}\left[\delta y_v\log p_v+(1-y_v)\log\left(1-p_v\right)\right],
Lhybrid=v∈V∑[δyvlogpv+(1−yv)log(1−pv)],
δ
\delta
δ 表示检测比
对模型的本地限制:
我们定义如下传播函数:
h
t
(
l
+
1
)
=
U
P
D
A
T
E
(
h
t
(
l
)
,
A
G
G
(
{
h
v
(
l
)
:
v
∈
N
t
}
)
)
h_t^{(l+1)}=\mathrm{UPDATE}\left(h_t^{(l)},\mathrm{AGG}\left(\{h_v^{(l)}:v\in\mathcal{N}_t\}\right)\right)
ht(l+1)=UPDATE(ht(l),AGG({hv(l):v∈Nt}))
H
t
n
e
i
g
h
=
A
G
G
(
h
t
1
,
h
t
2
,
.
.
.
,
h
t
L
)
,
H_{t}^{neigh}=\mathrm{AGG}(h_{t}^{1},h_{t}^{2},...,h_{t}^{L}),
Htneigh=AGG(ht1,ht2,...,htL),
这个函数其实就相当于一个简单的SGC,实验中常取2或者3层
我们也使用KNN视图:
H
t
k
n
n
=
f
m
e
a
n
(
{
x
u
∣
∀
u
∈
K
t
}
)
=
1
∣
K
t
∣
∑
u
∈
K
t
x
u
.
H_t^{knn}=f_{mean}(\{\mathbf{x}_u|\forall u\in K_t\})=\frac{1}{|K_t|}\sum_{u\in K_t}\mathbf{x}_u.
Htknn=fmean({xu∣∀u∈Kt})=∣Kt∣1∑u∈Ktxu.
最终,我们设计了一个限制损失函数:
L
e
n
v
\mathcal{L}_{env}
Lenv
L
env
=
−
log
(
1
∣
V
n
∣
∑
v
i
∈
V
n
e
v
i
sim
(
H
v
i
neigh
,
H
v
i
k
n
n
)
1
∣
V
a
∣
∑
v
j
∈
V
a
e
v
j
sim
(
H
v
j
neigh
,
H
v
j
k
n
n
)
)
,
,
\mathcal{L}_{\text{env}}=-\log\left(\frac{\frac{1}{|\mathcal{V}_{n}|}\sum_{v_{i}\in\mathcal{V}_{n}} e_{v_{i}}^{\text{sim}(H_{v_{i}}^{\text{neigh}}, H_{v_{i}}^{k n n})}}{\frac{1}{|\mathcal{V}_{a}|}\sum_{v_{j}\in\mathcal{V}_{a}} e_{v_{j}}^{\text{sim}(H_{v_{j}}^{\text{neigh}}, H_{v_{j}}^{k n n})}}\right),,
Lenv=−log
∣Va∣1∑vj∈Vaevjsim(Hvjneigh,Hvjknn)∣Vn∣1∑vi∈Vnevisim(Hvineigh,Hviknn)
,,
最终欺诈损失:
L = α L h y b r i d + ( 1 − α ) L e n v . \mathcal{L}=\alpha\mathcal{L}_{hybrid}+(1-\alpha)\mathcal{L}_{env}. L=αLhybrid+(1−α)Lenv.