在GAT论文中遇到的问题与理解

NorburyL

已于 2022-06-01 16:56:17 修改

阅读量187

点赞数 1

分类专栏： GNN 文章标签：机器学习深度学习人工智能

于 2022-05-31 22:12:29 首次发布

本文链接：https://blog.csdn.net/sherlocklcy/article/details/125074470

版权

GNN 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Q&A

Q1 多头注意力机制

使用多套 $W$ 和 $\vec{a}^T$ 计算 $\alpha_{ij}$

Q2 滤波器

https://blog.csdn.net/weixin_38481963/article/details/109906338

卷积核就是由长和宽来指定的，是一个二维的概念。
而过滤器是是由长、宽和深度指定的，是一个三维的概念。
过滤器可以看做是卷积核的集合。
过滤器比卷积核高一个维度——深度。

Q3 反向传播

以权重参数 $w_{1,1}$

$\begin{bmatrix} {w_{1,1}}&{w_{1,2}}&{\cdots}&{w_{1,8}}\\ {w_{2,1}}&{w_{2,2}}&{\cdots}&{w_{2,8}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {w_{1433,1}}&{w_{1433,2}}&{\cdots}&{w_{1433,8}}\\ \end{bmatrix}$

$h(输入的结点特征) = [h'_1[1433],h'_2[1433],h'_3[1433],...,h'_{2708}[1433]]^T$

$Wh =[h'_1[8] ,h'_2[8], ... ,h'_{2708}[8]]^T$

$h'_1[0] = {W_{1,1}h'_1[0]}+{W_{2,1}h'_1[1]}+{\cdots}+{W_{1433,1}h'_1[1432]} +bias$

$\frac{\partial Loss}{\partial w_{1,1}} = \frac{\partial Loss}{\partial h'} *\frac{\partial h'}{\partial h} *\frac{\partial h}{\partial w_{1,1}}$

$gradf(w_0,w_1,..w_n) = (\frac{\partial f}{\partial w_0}, \frac{\partial f}{\partial w_1},\frac{\partial f}{\partial w_n})$

$w_{1,1} = w_{1,1} - \eta\frac{\partial Loss}{\partial w_{1,1}}$

Q4 优化器

在这里插入图片描述

该算法更新梯度的指数移动均值 $m_t$ 和平方梯度 $v_t$ ，
指数移动均值 $m_t$
参数 β1、β2 ∈ [0, 1) 控制了这些移动均值 $m_t$ 指数衰减率。
移动均值本身使用梯度的一阶矩（均值）和二阶原始矩（有偏方差）进行估计。

因为这些移动均值初始化为 0 向量，所以矩估计值会偏差向 0，特别是在初始时间步中和衰减率非常小（即β接近于 1）的情况下是这样的。
但好消息是，初始化偏差很容易抵消，因此我们可以得到偏差修正（bias-corrected）的估计 $\hat{m_t}$ 和 $\widehat{m_t}$ 。

$w_{1,1} = w_{1,1} - \eta \frac{\widehat{m}_{epoch}}{\sqrt{\widehat{v}_{epoch}} + \epsilon }\\ \widehat{m}_{epoch} = \frac{m_{epoch}}{1-\beta_1}\\ \widehat{v}_{epoch} = \frac{v_{epoch}}{1-\beta_2}\\$
$m_{epoch} = m_{epoch-1}\beta_1 + (1-\beta_1) \frac{\partial Loss}{\partial w_{1,1}}\\$
$v_{epoch} = v_{epoch-1}\beta_2 + (1-\beta_2) \frac{\partial Loss}{\partial w_{1,1}}^2\\$
$\beta_1 = 0.9,\beta_2 = 0.999\\ epoch =1\\ 步长: \epsilon = 1e-8\\ 学习率: \eta = 0.005$