transfomer学习笔记

最新推荐文章于 2024-09-28 20:34:52 发布

常隆涛vitton

最新推荐文章于 2024-09-28 20:34:52 发布

阅读量335

点赞数 9

分类专栏：周报文章标签：学习笔记数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46581836/article/details/134742480

版权

周报专栏收录该内容

10 篇文章 0 订阅

订阅专栏

transfomer

一、摘要

主流的序列转换模型基于复杂的递归或卷积神经网络，其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构–“转换器”（Transformer）。跟RESNET一样，简单的架构有时候效果很好。完全基于注意力机制，无需递归和卷积

一开始为了解决机器翻译问题

结论

导言

RNN无法并行，时序比较长的话，前面的信息后面就丢掉了，如果想保留，只能做大HT，这样内存开销大。

RNN有和注意力结合的效果还行。作者完全抛弃循环，纯注意力。提高并行度

相关工作

用卷积神经网络替换掉循环神经网络。学习远距离位置之间的依赖关系变得更加困难。在Transformer中，这被减少到一个恒定的操作数量，注意力机制一层就能看到距离比较远的所有信息。卷积有多个输出通道，提出了多头注意力。自注意力

模型

输入输出长度不一定一样。解码的时候只能一个一个生成，过去时刻的输出也可以是当前的输入，这叫自回归。

编码器，六个层，两个子层加了残差连接，为了方便残差，每一层输出维度是512（和CNN不一样，CNN减少维度），两个参数512，6。

LayerNorm(x + Sublayer(x)),

算方差的话，batchnorm抖动比较大，要求全局的均值和方差。layernorm对针对样本算方差，要稳定一点。

解码器6层，解码器有第三个子层，做的自回归。注意力机制能看到完整的数据，但是当前输入不能来自未来的数字，t时刻不应该看到t时刻之后的数据。加了掩码mask。

注意力，输出是value的加权和，权重从哪里来。是value对应的key和q的相似度来的。kv不会变，根据q的变化改变权重。qk是等长的，v不一定。qk求内积除以根号dk，softmax，得到加和为1的权重。Q写成矩阵（nDK）,K(DK**M),对每一行做softmax，V（M***DV），得到m.n的矩阵。

维度扩大四倍

实验

评论

DV），得到m.n的矩阵。

维度扩大四倍

实验

评论

常隆涛vitton

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。