transformer小白入门

参考资料说明

本文主要参考以下两个资料
水论文的程序猿
跟李沐学AI

什么是transformer?

transformer是与MLP, CNN, RNN相并列的一种基础网络结构。在transformer中只使用MLP与attention结构。

相关工作比较

transformer相比CNN可以使用更少的参数进行更好的信息融合。如,在一张图像中间隔比较远的两个像素点,需要多层CNN进行处理才能对结果进行比较好的信息融合,但是由于在transformer中存在attention结构所以只使用一步就可以对所有信息进行较充分的融合。

什么是attention?

当前对于注意力机制的介绍,仅介绍与transformer最相关的部分。
attention的计算方式如下图所示参照内容
在这里插入图片描述
总结来说,注意力机制是通过一个查询变量Q,去找到V里面比较重要的东西。在注意力中假设K==V(often),然后QK相乘得到相似度A,然后AV相乘得到注意力值Z。这个Z就是V的另外一种形式的表示,对于词向量而言,Z就是具有句法特征和语法特征的词向量。
简化的注意力机制的计算过程,如下图所示:
在这里插入图片描述

什么是self-attention?

self-attention相比普通attention额外的步骤是先对目标向量进行Wq,Wk,Wv加权处理得到q,k,v三个向量。然后计算attention的过程和上述一致。self-attention可以实现对单句内容中进行信息融合,得到的结果具有句法特征和语义特征。可以参照此视频理解上述内容
源向量产生QKV的过程,如下图所示,可以将W理解为空间变换矩阵。
在这里插入图片描述
self-attention得到的结果是包含文法关系和语法关系的词向量,以上内容可以根据下面这张图像进行理解。最终的结果是加权结果,包含了当前输入的词向量与其他词向量的关系。
在这里插入图片描述
对于信息融合的显示表示如下面这张图所示:当前attention-value的结果是q1与所有k进行相似度计算得到权重a,然后用此权重对所有v进行加权求和的结果。
在这里插入图片描述

相关工作比较

RNN无法做长序列,无法做并行。LSTM通过加入记忆单元来改善RNN的遗忘问题(LSTM通过各种门,选择性的记忆之前的信息),但是LSTM无法实现并行计算。transformer既可以完成长序列的记忆,又可以实现并行计算。但是由于计算开销比较大,所以不建议序列特别长。

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值