transformer小白入门

最新推荐文章于 2024-06-07 16:59:53 发布

pure a~

最新推荐文章于 2024-06-07 16:59:53 发布

阅读量431

点赞数 5

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/m0_45290027/article/details/136171874

版权

内容大纲

参考资料说明
什么是transformer?
- 相关工作比较
什么是attention?
什么是self-attention?
- 相关工作比较

参考资料说明

本文主要参考以下两个资料
水论文的程序猿
 跟李沐学AI

什么是transformer?

transformer是与MLP, CNN, RNN相并列的一种基础网络结构。在transformer中只使用MLP与attention结构。

什么是attention?

当前对于注意力机制的介绍，仅介绍与transformer最相关的部分。
attention的计算方式如下图所示参照内容
在这里插入图片描述
总结来说，注意力机制是通过一个查询变量Q，去找到V里面比较重要的东西。在注意力中假设K==V（often），然后QK相乘得到相似度A，然后AV相乘得到注意力值Z。这个Z就是V的另外一种形式的表示，对于词向量而言，Z就是具有句法特征和语法特征的词向量。
简化的注意力机制的计算过程，如下图所示：
在这里插入图片描述

什么是self-attention?

self-attention相比普通attention额外的步骤是先对目标向量进行Wq,Wk,Wv加权处理得到q,k,v三个向量。然后计算attention的过程和上述一致。self-attention可以实现对单句内容中进行信息融合，得到的结果具有句法特征和语义特征。可以参照此视频理解上述内容
源向量产生QKV的过程，如下图所示，可以将W理解为空间变换矩阵。
在这里插入图片描述
self-attention得到的结果是包含文法关系和语法关系的词向量，以上内容可以根据下面这张图像进行理解。最终的结果是加权结果，包含了当前输入的词向量与其他词向量的关系。

对于信息融合的显示表示如下面这张图所示：当前attention-value的结果是q1与所有k进行相似度计算得到权重a，然后用此权重对所有v进行加权求和的结果。
在这里插入图片描述

相关工作比较

RNN无法做长序列，无法做并行。LSTM通过加入记忆单元来改善RNN的遗忘问题（LSTM通过各种门，选择性的记忆之前的信息），但是LSTM无法实现并行计算。transformer既可以完成长序列的记忆，又可以实现并行计算。但是由于计算开销比较大，所以不建议序列特别长。

pure a~

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
transformer小白入门

transformer是与MLP, CNN, RNN相并列的一种基础网络结构。在transformer中只使用MLP与attention结构。当前对于注意力机制的介绍，仅介绍与transformer最相关的部分。attention的计算方式如下图所示参照内容总结来说，注意力机制是通过一个查询变量Q，去找到V里面比较重要的东西。在注意力中假设K==V（often），然后QK相乘得到相似度A，然后AV相乘得到注意力值Z。
复制链接

扫一扫