机器翻译
J_Xiong0117
一枚终生学习的算法工程师
展开
-
NLP——图解Transformer
文章目录结构图解过程图解1. Word embedding + Position encoding2. Encoder3. Decoder4. Final Linear + Softmax5. loss function结构图解为了更有层次的掌握Transformer结构,下面通过由高到低,由外到里的形式来一步步展开Transformer。 首先把Transformer看成一个翻译工具,一个黑匣子,它的结构如下图:输入原文(绿色) 通过Transformer得到输出译文(紫色)。打开Transfor原创 2020-05-30 09:28:37 · 554 阅读 · 0 评论 -
NLP——机器翻译中的Transformer
文章目录框架简介Transformer结构EncoderDecoderScaled Dot-Product AttentionMulti-Head AttentionLayer NormalizationMaskPositional EmbeddingPosition-wise Feed-Forward NetworkTransformer优点框架简介Transformer就是一个升级版的Seq2Seq,也是由Encoder和Decoder组成。Transformer抛弃了以往深度学习任 务使用的C原创 2020-05-25 22:41:41 · 3293 阅读 · 0 评论 -
NLP——机器翻译中的Attention
文章目录框架简介相关度计算框架简介Encoder-Decoder模型虽然非常经典,但是局限性也非常大。最大的局限性就在于编码和解码之间的唯一联 系就是一个固定长度的语义向量C。也就是说,编码器要将整个序列的信息压缩进一个固定长度的向量中。但 是这样做有两个弊端,一是语义向量无法完全表示整个序列的信息,二是先输入的内容携带的信息会被后输入 的信息稀释掉。输入序列越长,这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的 信息,那么解码时准确率就要打一定折扣。 为了解决上述问题,在Seq原创 2020-05-25 21:54:07 · 552 阅读 · 0 评论 -
NLP——机器翻译中的Seq2Seq
文章目录框架简介EncoderDecoderCNN-Seq2SeqSeq2Seq模型缺点框架简介Seq2Seq,全称Sequence to Sequence(序列到序列),它是一种通用的编码器-解码器框架。这个框架最初是为 了机器翻译构建的,但是后来也广泛应用到各种其他任务,包括文本摘要、会话建模和图像字幕等。最基础的 Seq2Seq模型包含了三个部分,即Encoder、Decoder以及连接两者的中间语义向量,Encoder通过学习输入,将 其编码成一个固定大小的语义向量C,继而将C传给Decod原创 2020-05-25 21:21:19 · 1721 阅读 · 0 评论