NLP系列
文章平均质量分 81
NLP应用到的网络
。七十二。
这个作者很懒,什么都没留下…
展开
-
transformer学习
Transformer是现在NLP领域最大的网红特征抽取器,基本现在所有的前沿研究都基于Transformer来做特征提取。《Attention is all you need》Transformer是一个用于机器翻译的编、解码器结构,这也是它为什么叫Transformer的原因。因为在序列编码中强大的特征提取能力和高效的运算特性,Transformer被从编、解码结构中抽离出来,NLP中目前最流行的特征提取器。Transformer其实就是一个seq2seq的model!!! :语音方面原创 2021-11-18 10:09:13 · 564 阅读 · 0 评论 -
self-attention(二) 矩阵运算
矩阵乘法角度讲解self-attention运作:1、所有的a都有对象的q,k,v所以将所有的a拼接为一个矩阵。同理获得K,V。做矩阵点乘:(看作矩阵和向量相乘)在转换成矩阵与矩阵相乘:综上:self-attention输入是A,输出是Q。进阶版:multi-head self-attention:多个head:翻译之类多个head效果更好。用q找相关的v;想要用不同的q找不同种类的相关性。2种不同的head找两种不同的相关性。每一个.原创 2021-11-17 15:16:39 · 654 阅读 · 0 评论 -
self-attention(一)
Self-attention想要解决的问题是,目前的network的input都是一个向量,输出可能是一个类别、数值(regression),但当输入为一排向量,且向量数目会改变。(每次model的输入sequence长度不一)情况1:输入的多种情况:例1:假如输入是一个句子,每一个词汇表示为一个向量(用one-hot编码的方式,向量维度特别大,看不出来每个词汇之间的相似性,类似狗、猫都属于动物类;故引入另一种编码方式,word embedding给每个向量带上了语义,所有的同一类词汇会聚集在.原创 2021-11-17 11:35:26 · 689 阅读 · 0 评论