Transformer相关技术的理解
文章平均质量分 80
主要用于自己学习及要点记录
我看到你啦滴
这个作者很懒,什么都没留下…
展开
-
【陈工笔记-Transformer】GAMLP图注意力多层感知器中注意力机制的理解
例如,对于图中心的稠密结点,可能只需要第二层的聚合信息就够了,而不需要后续的聚合信息,那么模型就会学习只关注第二层的邻居聚合信息而忽略其他层的聚合信息;与先前的基于GNN的方法SIGN相比,SIGN解决了不同跳的信息没有充分利用的问题,它将不同跳的特征做了拼接操作,并将其输入至一个简单的MLP。具体而言,现有的基于GNN的改进算法,存在特征传播方式缺乏灵活性的问题,无法对不同感受野(RF) 下的关联节点进行建模,会产生两种可能的结果:(1)长距离的依赖性由于 RF 过小而不能被充分利用;原创 2024-01-26 13:46:44 · 1128 阅读 · 0 评论 -
【陈工笔记-Transformer】Transformer的基础认识
以下是Transformer的内部结构图,左侧为 Encoder block,右侧为 Decoder block,红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成。Add指 X+MultiHeadAttention(X),是一种残差连接,通常用于解决多层网络训练的问题,可以让网络只关注当前差异的部分,在 ResNet 中经常用到。然后,经过Feed Forward层,由一个两层的全连接层组成,第一层的激活函数为 ReLU,第二层不使用激活函数。原创 2024-01-24 17:52:58 · 507 阅读 · 0 评论