Transformer论文
Transformer概述
对于RNN,由于当前输入依赖于上一个输出,所以存在 不能并行处理 的问题。
Trasnformer是完全基于自注意力机制的一个深度学习模型,可以并行化计算。
Trnsformer最早用在翻译任务上,是一个Encoder-Decoder(编码器,解码器)的结构。
Transformer应用场景
Transformer适合序列到序列的任务,比如机器翻译,文本的情感分析,看图说话等。
Transformer的输入
不用 独热编码One-Hot Encoding的原因:其一是表示出来的向量可能很长,其二是不能表达词与词之间的关系。
词向量嵌入Word Embedding
另一种词的表示方法,能够体现词与词之间的关系。通过将词映射为连续的向量,使得语义上相似的词在向量空间中的位置相近,从而捕捉到了词之间的语义关系。
常用的词嵌入模型
词嵌入模型: 利用