Q&A
Q1 多头注意力机制
使用多套 W W W和 a ⃗ T \vec{a}^T aT计算 α i j \alpha_{ij} αij
Q2 滤波器
https://blog.csdn.net/weixin_38481963/article/details/109906338
卷积核就是由长和宽来指定的,是一个二维的概念。
而过滤器是是由长、宽和深度指定的,是一个三维的概念。
过滤器可以看做是卷积核的集合。
过滤器比卷积核高一个维度——深度。
Q3 反向传播
以权重参数 w 1 , 1 w_{1,1} w1,1
[ w 1 , 1 w 1 , 2 ⋯ w 1 , 8 w 2 , 1 w 2 , 2 ⋯ w 2 , 8 ⋮ ⋮ ⋱ ⋮ w 1433 , 1 w 1433 , 2 ⋯ w 1433 , 8 ] \begin{bmatrix} {w_{1,1}}&{w_{1,2}}&{\cdots}&{w_{1,8}}\\ {w_{2,1}}&{w_{2,2}}&{\cdots}&{w_{2,8}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {w_{1433,1}}&{w_{1433,2}}&{\cdots}&{w_{1433,8}}\\ \end{bmatrix} ⎣⎢⎢⎢⎡w1,1w2,1⋮w1433,1w1,2w2,2⋮w1433,2⋯⋯⋱⋯w1,8w2,8⋮w1433,8⎦⎥⎥⎥⎤
h ( 输 入 的 结 点 特 征 ) = [ h 1 ′ [ 1433 ] , h 2 ′ [ 1433 ] , h 3 ′ [ 1433 ] , . . . , h 2708 ′ [ 1433 ] ] T h(输入的结点特征) = [h'_1[1433],h'_2[1433],h'_3[1433],...,h'_{2708}[1433]]^T h(输入的结点特征)=[h1′[1433],h2′[1433],h3′[1433],...,h2708′[1433]]T
W h = [ h 1 ′ [ 8 ] , h 2 ′ [ 8 ] , . . . , h 2708 ′ [ 8 ] ] T Wh =[h'_1[8] ,h'_2[8], ... ,h'_{2708}[8]]^T Wh=[h1′[8],h2′[8],...,h2708′[8]]T
h 1 ′ [ 0 ] = W 1 , 1 h 1 ′ [ 0 ] + W 2 , 1 h 1 ′ [ 1 ] + ⋯ + W 1433 , 1 h 1 ′ [ 1432 ] + b i a s h'_1[0] = {W_{1,1}h'_1[0]}+{W_{2,1}h'_1[1]}+{\cdots}+{W_{1433,1}h'_1[1432]} +bias h1′[0]=W1,1h1′[0]+W2,1h1′[1]+⋯+W1433,1h1′[1432]+bias
∂ L o s s ∂ w 1 , 1 = ∂ L o s s ∂ h ′ ∗ ∂ h ′ ∂ h ∗ ∂ h ∂ w 1 , 1 \frac{\partial Loss}{\partial w_{1,1}} = \frac{\partial Loss}{\partial h'} *\frac{\partial h'}{\partial h} *\frac{\partial h}{\partial w_{1,1}} ∂w1,1∂Loss=∂h′∂Loss∗∂h∂h′∗∂w1,1∂h
g r a d f ( w 0 , w 1 , . . w n ) = ( ∂ f ∂ w 0 , ∂ f ∂ w 1 , ∂ f ∂ w n ) gradf(w_0,w_1,..w_n) = (\frac{\partial f}{\partial w_0}, \frac{\partial f}{\partial w_1},\frac{\partial f}{\partial w_n}) gradf(w0,w1,..wn)=(∂w0∂f,∂w1∂f,∂wn∂f)
w 1 , 1 = w 1 , 1 − η ∂ L o s s ∂ w 1 , 1 w_{1,1} = w_{1,1} - \eta\frac{\partial Loss}{\partial w_{1,1}} w1,1=w1,1−η∂w1,1∂Loss
Q4 优化器
该算法更新梯度的 指数移动均值
m
t
m_t
mt和 平方梯度
v
t
v_t
vt,
指数移动均值
m
t
m_t
mt
参数 β1、β2 ∈ [0, 1) 控制了这些移动均值
m
t
m_t
mt指数衰减率。
移动均值本身使用梯度的一阶矩(均值)和二阶原始矩(有偏方差)进行估计。
因为这些移动均值初始化为 0 向量,所以矩估计值会偏差向 0,特别是在初始时间步中和衰减率非常小(即β接近于 1)的情况下是这样的。
但好消息是,初始化偏差很容易抵消,因此我们可以得到偏差修正(bias-corrected)的估计
m
t
^
\hat{m_t}
mt^ 和
m
t
^
\widehat{m_t}
mt
。
w
1
,
1
=
w
1
,
1
−
η
m
^
e
p
o
c
h
v
^
e
p
o
c
h
+
ϵ
m
^
e
p
o
c
h
=
m
e
p
o
c
h
1
−
β
1
v
^
e
p
o
c
h
=
v
e
p
o
c
h
1
−
β
2
w_{1,1} = w_{1,1} - \eta \frac{\widehat{m}_{epoch}}{\sqrt{\widehat{v}_{epoch}} + \epsilon }\\ \widehat{m}_{epoch} = \frac{m_{epoch}}{1-\beta_1}\\ \widehat{v}_{epoch} = \frac{v_{epoch}}{1-\beta_2}\\
w1,1=w1,1−ηv
epoch+ϵm
epochm
epoch=1−β1mepochv
epoch=1−β2vepoch
m
e
p
o
c
h
=
m
e
p
o
c
h
−
1
β
1
+
(
1
−
β
1
)
∂
L
o
s
s
∂
w
1
,
1
m_{epoch} = m_{epoch-1}\beta_1 + (1-\beta_1) \frac{\partial Loss}{\partial w_{1,1}}\\
mepoch=mepoch−1β1+(1−β1)∂w1,1∂Loss
v
e
p
o
c
h
=
v
e
p
o
c
h
−
1
β
2
+
(
1
−
β
2
)
∂
L
o
s
s
∂
w
1
,
1
2
v_{epoch} = v_{epoch-1}\beta_2 + (1-\beta_2) \frac{\partial Loss}{\partial w_{1,1}}^2\\
vepoch=vepoch−1β2+(1−β2)∂w1,1∂Loss2
矩
估
计
的
指
数
衰
减
数
率
:
β
1
=
0.9
,
β
2
=
0.999
e
p
o
c
h
=
1
步
长
:
ϵ
=
1
e
−
8
学
习
率
:
η
=
0.005
矩估计的指数衰减数率: \beta_1 = 0.9,\beta_2 = 0.999\\ epoch =1\\ 步长: \epsilon = 1e-8\\ 学习率: \eta = 0.005
矩估计的指数衰减数率:β1=0.9,β2=0.999epoch=1步长:ϵ=1e−8学习率:η=0.005
m 0 = v 0 = 0 m_{0} = v_{0}=0 m0=v0=0
Q5 第一层GAT
h ( 输 入 的 结 点 特 征 ) = [ h ⃗ 1 [ 1433 ] , h ⃗ 2 [ 1433 ] , h ⃗ 3 [ 1433 ] , . . . , h ⃗ 2708 [ 1433 ] ] T h(输入的结点特征) = [\vec{h}_1[1433],\vec{h}_2[1433],\vec{h}_3[1433],...,\vec{h}_{2708}[1433]]^T h(输入的结点特征)=[h1[1433],h2[1433],h3[1433],...,h2708[1433]]T
h ‘ ( 输 出 的 结 点 特 征 ) = [ h ’ ⃗ 1 [ 8 ] , h ‘ ⃗ 2 [ 8 ] , h ’ ⃗ 3 [ 8 ] , . . . , h ‘ ⃗ 2708 [ 8 ] ] T h‘(输出的结点特征) = [\vec{h’}_1[8],\vec{h‘}_2[8],\vec{h’}_3[8],...,\vec{h‘}_{2708}[8]]^T h‘(输出的结点特征)=[h’1[8],h‘2[8],h’3[8],...,h‘2708[8]]T
h ‘ ( 输 出 的 结 点 特 征 ) = [ h ’ ⃗ 1 [ 7 ] , h ‘ ⃗ 2 [ 7 ] , h ’ ⃗ 3 [ 7 ] , . . . , h ‘ ⃗ 2708 [ 7 ] ] T h‘(输出的结点特征) = [\vec{h’}_1[7],\vec{h‘}_2[7],\vec{h’}_3[7],...,\vec{h‘}_{2708}[7]]^T h‘(输出的结点特征)=[h’1[7],h‘2[7],h’3[7],...,h‘2708[7]]T