transform
文章平均质量分 80
transform
一只小小的土拨鼠
这个作者很懒,什么都没留下…
展开
-
深入理解Transformer的笔记记录(精简版本)NNLM → Word2Vec
文章的整体介绍顺序为:自然语言处理相关任务中要将自然语言交给机器学习中的算法来处理,通常需要将语言数学化,因为计算机机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的数学性质的东西,基本上可以说向量是人对机器输入的主要方式了。词向量是对词语的向量表示,这些向量能捕获词语的,如相似意义的单词具有类似的向量。假定我们有一系列样本(x,y),其中的 x 是词语,y 是它们的词性,我们要构建f(x) to y的映射:首先,这个数学模型 f(比如神经网络、SVM)只接受数值型输入;原创 2024-10-08 20:13:00 · 981 阅读 · 0 评论 -
深入理解Transformer的笔记记录(精简版本)---- Transformer
我们已经了解了模型的主要部分,接下来我们看一下各种向量或张量(注:张量概念是矢量概念的推广,可以简单理解矢量是一阶张量、矩阵是二阶张量)是怎样在模型的不同部分中,将输入转化为输出的。最后,流入解码器中,解码器中除了也有自注意力层、前馈层外,这两个层之间还有一个编码-解码注意力层,用来关注输入句子的相关部分(和seq2seq模型的注意力作用相似)接下来,自注意力层的输出会传递到前馈(feed-forward)神经网络中,每个位置的单词对应的前馈神经网络的结构都完全一样(注意:仅结构相同,但各自的参数不同)原创 2024-10-09 23:52:42 · 74 阅读 · 0 评论 -
深入理解Transformer的笔记记录(精简版本)----Seq2Seq → Seq2Seq with Attention
比如,图书馆(source)里有很多书(value),为了方便查找,我们给书做了编号(key)。当我们想要了解漫威(query)的时候,我们就可以看看那些动漫、电影、甚至二战(美国队长)相关的书籍。可以看到,将Source中的构成元素想象成是由一系列的数据对构成,此时给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的Attention数值。原创 2024-10-09 23:43:14 · 784 阅读 · 0 评论