Transformer模型
文章平均质量分 81
# Transformer模型
Ankie(资深技术项目经理)
AI讲师,All in AI。前高通 资深技术项目经理,WiFi专家。
展开
-
重新梳理Attention Is All You Need(Transformer模型),从输入到输出
Transformer模型已经成为当前所有自然语言处理NLP的标配,如GPT,Bert,Sora,LLama,Grok等。假如《Attention Is All You Need》类比为爱因斯坦的侠义相对论,Transformer模型则堪称E=MC^2之等量公式。看过论文之后,我们按照输入输出顺序重新梳理一遍这个模型:原创 2024-03-25 00:07:17 · 1384 阅读 · 2 评论 -
Transformer模型-用jupyter演示逐步计算attention
学习transformer模型-用jupyter演示如何计算attention,不含multi-head attention,但包括权重矩阵W。原创 2024-03-30 00:20:05 · 711 阅读 · 0 评论 -
Transformer模型-encoder编码器,padding填充,source mask填充掩码的简明介绍
encoder编码器层是对之前文章中提到的子层的封装。它接收位置嵌入的序列,并将其通过多头注意力机制和位置感知前馈网络。在每个子层之后,它执行残差连接和层归一化。因为要循环n次,所以封装到一起就比较方便。为了充分利用多头注意力子层的优势,输入标记会先通过一堆编码器层,然后再传递给解码器。这在文章开头的图片中用Nx表示,而上面的图片展示了这些堆叠的编码器如何将其输出传递给解码器层,这将在下一篇文章中讨论。原创 2024-04-09 00:15:00 · 1277 阅读 · 0 评论 -
Transformer模型-decoder解码器,target mask目标掩码的简明介绍
解码器层是对前面文章中提到的子层的包装器。它接受位置嵌入的目标序列,并将它们通过带掩码的多头注意力机制传递。使用掩码是为了防止解码器查看序列中的下一个标记。它迫使模型仅使用之前的标记作为上下文来预测下一个标记。然后,它再通过另一个多头注意力机制,该机制将编码器层的输出作为额外的输入。最后,它通过位置全连接前馈网络。在这些子层中的每一个之后,它都会执行残差相加和层归一化。原创 2024-04-10 00:15:00 · 1031 阅读 · 0 评论 -
Transformer模型-数据预处理,训练,推理(预测)的简明介绍
Transformer模型-数据预处理,训练,推理(预测)的简明介绍。在继续探讨之前,假定已经对各个模块的功能有了充分的了解,我们从头梳理一遍流程。原创 2024-04-11 00:15:00 · 912 阅读 · 0 评论 -
Transformer模型-Feed Forward前馈网络,MLP和Relu激活函数的简明介绍:即2个线性层,中间通过Relu()连接。
位置感知Position-Wise前馈网络(FFN)由两个全连接层(fully connected dense layers,就是线性层(Linear Layer),或密集层(Dense Layer))组成,或者也可以称为多层感知机(MLP:multi-layer perceptron)。在层与层之间,使用ReLU激活函数,即max(0, X)。任何大于0的值保持不变,而任何小于或等于0的值都将变为0。它引入了非线性,有助于防止梯度消失。原创 2024-04-08 00:15:00 · 928 阅读 · 0 评论 -
Transformer模型-太神奇了,点积dot product成就ChatGPT!点积相似度dot product Similarity;计算attention
点积在数学中,又称数量积(dot product;scalar product),是指接受在实数R上的两个向量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积。两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为:矢量模相乘在乘cosθ(θ 为矢量得夹角)a•b= |a| |b| cosθ;根据点积的正负值判断夹角的大小:点积为正夹角小于90°、点积等于零夹角等于90°、点积小于零夹角大于90°。原创 2024-03-28 00:18:55 · 428 阅读 · 2 评论 -
Transformer模型-add & norm(残差连接&归一化)的简明介绍:残差连接,增加深度,不丢失初始的特征;归一化,避免梯度消失,减少运算
add&norm在transformer的每个子层都出现:add增加残差连接,可以增加深度,不丢失初始的特征。norm归一化,因为把原始的特征加回来,避免梯度消失,减少运算,进行归一化处理。原创 2024-04-07 00:15:00 · 824 阅读 · 0 评论 -
Transformer模型-Dropout的简明介绍:丢掉一些元素,防止过度拟合
Dropout 是一种神经网络正则化技术,它在训练时以指定的概率丢弃一个单元(以及连接)p。这个想法是为了防止神经网络变得过于依赖特定连接的共同适应,因为这可能是过度拟合的症状。直观上,dropout 可以被认为是创建一个隐式的神经网络集合。原创 2024-04-01 00:30:00 · 754 阅读 · 0 评论 -
Transformer模型-broadcast广播的简明介绍:拉伸张量
广播发生在将较小的张量“拉伸”以具有与较大张量兼容的形状,以便执行操作时。广播是一种有效执行张量操作而不创建重复数据的方式。原创 2024-04-02 00:15:00 · 190 阅读 · 0 评论 -
Transformer模型-线性层(Linear Layer),全连接层(Fully Connected Layer)或密集层(Dense Layer)的简明介绍:通过训练得出最佳拟合线
线性层(Linear Layer)是神经网络中的一种基本层,也被称为全连接层(Fully Connected Layer)或密集层(Dense Layer)。线性层在神经网络中起到的作用是对输入数据进行线性变换。线性层的基本操作可以表示为:(y) 是输出向量。(W) 是权重矩阵,其中的每个元素都是可学习的参数。(x) 是输入向量。(b) 是偏置向量,也是一个可学习的参数。线性层会对输入数据 (x) 进行线性组合,并通过加上偏置 (b) 得到输出 (y)。原创 2024-04-04 00:30:00 · 1807 阅读 · 0 评论 -
Transformer模型-Positional Encoding位置编码的简明介绍
位置编码用于为序列中的每个标记或单词提供一个相对位置。在阅读句子时,每个单词都依赖于其周围的单词。例如,有些单词在不同的上下文中具有不同的含义,因此模型应该能够理解这些变化以及每个单词所依赖的上下文。一个例子是单词“trunk”。在一种情况下,它可以用来指大象用鼻子喝水;在另一种情况下,它可能指的是被闪电击中的树干。由于模型使用长度为d_model的嵌入向量来表示每个单词,因此任何位置编码都必须与之兼容。使用整数来表示位置似乎很自然,比如第一个标记为0,第二个标记为1,以此类推。然而,这个数字很快就会增长,原创 2024-04-01 00:30:00 · 908 阅读 · 0 评论 -
Transformer模型-Input Embedding 嵌入层的简明介绍
今天介绍transformer模型的Input Embedding 嵌入层。嵌入序列需要分词器tokenizer、词汇表和索引,以及词汇表中每个单词的三维嵌入。Embedding a sequence requires a tokenizer, a vocabulary of words and their indices, and a three-dimensional embedding for each word in the vocabulary.分词器将序列分割为其标记tokens。创建分原创 2024-03-31 00:45:56 · 669 阅读 · 0 评论 -
Transformer模型-softmax的简明介绍:转为概率分布,马太效应
softmax:常用于神经网络的输出层,以将原始的输出值转化为概率分布,从而使得每个类别的概率值在0到1之间,并且所有类别的概率之和为1。这使得Softmax函数特别适用于多类分类问题,其中模型需要预测输入样本属于多个可能类别中的哪一个。原创 2024-04-03 00:07:12 · 524 阅读 · 0 评论 -
Transformer模型-Multi-Head Attention多头注意力的简明介绍
今天介绍transformer模型的Multi-Head Attention多头注意力。通过之前文章,假定我们已经理解了attention;今天我们按顺序来梳理一下整合之后的顺序。原创 2024-04-05 00:30:00 · 1138 阅读 · 0 评论 -
Transformer模型-矩阵乘法;与点积 dot product(点积相似度 dot product Similarity)的关系;计算attention
Ankie的评论:因为点积可以计算相似值,或者距离,attention就拿来计算attention的相似值,或者距离。两个向量a = [a1, a2,…3、乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。1、当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。Ankie的评论:一个人是站着的,一个人是躺着的,站着的高度=躺着的长度。矩阵C的第一个元素,其实就是A的第一行和B的第一列做点积。2、矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。原创 2024-03-29 00:16:48 · 364 阅读 · 0 评论 -
Transformer模型-权重矩阵Wq,Wk,Wv的简明介绍
学习transformer模型的时候,权重矩阵Wq,Wk,Wv给我造成了很大的困扰:1,为啥要加W*?2,这个W*是从哪里来的?搜索了各种信息,消化理解如下:1,W*权重矩阵就是训练的目的,就是要找到合适的W*(weights)。2,W* 是函数nn.Linear初始化的,默认为随机数。经过不断地训练,更新,最终获得比较好的结果原创 2024-03-31 00:15:00 · 838 阅读 · 2 评论 -
Transformer模型-Normalization归一化的简明介绍:将特征转换为可比较尺度的过程,一般是[0,1] or [-1,1]之间
一般而言,Normalization归一化是将特征转换为可比较尺度的过程。有许多方法可以对特征进行归一化。在机器学习中,对特征进行归一化是因为具有不同尺度的特征的模型需要更长的训练时间;这是因为梯度下降需要更多时间来收敛。根据Pinecone的说法,不进行归一化可能导致大的误差梯度最终爆炸,从而使模型不稳定。因此,在许多情况下,在将数据插入模型之前应该进行归一化。原创 2024-04-06 00:15:00 · 1433 阅读 · 0 评论 -
重新梳理Attention Is All You Need(Transformer模型): Attention=距离,权重,概率;Multi-Head attention;RNN
Attention并非transformer原创,但是transformer把Attention置为核心地位,取得了巨大的成功!我来尝试理解并介绍一下Attention注意机制。Attention的目的是:提取特征,获得权重。Attention是什么:提取特征(权重)的手段。比如:给定一张图片,人类大脑很快就会把注意力放在最具辨识度的部分。换句话就是提取了最主要的信息。相比于之前的RNN(循环神经网络),目标都是一样提取特征,获得权重,但是Attention明显技高一筹。原创 2024-03-26 00:11:05 · 1527 阅读 · 0 评论 -
人工智能论文:2017.6 Attention Is All You Need-3-训练;结果;结论;Transformer模型相当于 E=MC^2
Attention Is All You Need这篇论文对于近代人工智能产业相当于爱因斯坦的狭义相对论。Transformer模型相当于 E=MC^2transformer最开始只是为了解决机器翻译的问题。相比较之前RNN等方案,transformer的通过attention机制,明显提高了机器翻译的准确率。出乎意料的是,OpenAI基于transformer在GPT1/2/3/4上的逐步改进优化,加上大力出奇迹,竟然基本解决了机器和人的沟通问题,远远超过原来的机器翻译的小目标。后来的Sora原创 2024-03-24 00:15:00 · 1073 阅读 · 0 评论 -
人工智能论文:2017.6 Attention Is All You Need-2-Transformer模型;Attention机制;位置编码
为什么是自注意力Why Self-Attention?一个是每层的总计算复杂度。另一个是可以并行化的计算量,这通过所需的最少顺序操作数来衡量。第三个是网络中长期依赖关系的路径长度。学习长期依赖关系在许多序列转换任务中是一个关键挑战。影响学习这种依赖关系能力的一个关键因素是前向和后向信号在网络中必须遍历的路径长度。输入和输出序列中任意位置组合之间的这些路径越短,学习长期依赖关系就越容易。因此,我们还将比较由不同类型层组成的网络中任意两个输入和输出位置之间的最大路径长度。原创 2024-03-23 00:16:07 · 1227 阅读 · 0 评论 -
人工智能论文:2017.6 Attention Is All You Need-1-介绍;Transformer模型架构;编码器,解码器
Transformer模型是目前最成功的chatGPT,Sora,文心一言,LLama,Grok的基础模型。《Attention Is All You Need》是一篇由Google DeepMind团队在2017年发表的论文,该论文提出了一种新的神经网络模型,即Transformer模型,该模型主要用于自然语言处理任务。Transformer模型的创新点在于其使用了自注意力机制(self-attention mechanism)来取代传统的循环神经网络(RNN)和卷积神经网络(CNN)等结构。这使得原创 2024-03-22 00:03:38 · 1385 阅读 · 0 评论