Transformer学习

6 篇文章 0 订阅
3 篇文章 0 订阅

Seq2Seq

在这里插入图片描述

语音翻译为何不直接用语音辨识+机器翻译?

因为有的语言没有文字,比如将狗叫翻译出来。

语法分析

将任务转化成翻译任务,硬训一发,效果不错。
在这里插入图片描述

文章归类问题

在这里插入图片描述

目标检测

在这里插入图片描述

Transformer

Encoder结构

在这里插入图片描述

multi-head attention block

在这里插入图片描述

为何batch-norm 不如 layer-norm?

https://arxiv.org/abs/2003.07845
https://zhuanlan.zhihu.com/p/428620330

Decoder结构

decoder流程

在这里插入图片描述

decoder结构

encoder和decoder基本一样,decoder多了一个masked mutil-head attention
在这里插入图片描述

decoder比encoder多了一个masked self-attention,why?

因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出
在这里插入图片描述

decoder如何决定自己输出的长度?

增加一个停止token,一般来会跟begin用一个符号
在这里插入图片描述

Decoder-Non-autoregressive(NAT)

在这里插入图片描述

NAT decoder如何决定输出长度?

  1. 训练一个分类器用来预测输出长度
  2. 输出一个固定的较长的长度,通过END tocken来截取最终输出

优势

  1. AT decoder需要一个一个输出,NAT可以一次输出整个
  2. 较容易控制输出长度,比如在语音合成的应用

劣势

NAT的表现通常不如AT。原因:multi-modality

Transformer结构

在这里插入图片描述

cross attention

在这里插入图片描述

训练

在这里插入图片描述

训练和测试的区别

在这里插入图片描述

Bert为何不适合文本生成任务

作者:山河动人
链接:https://www.zhihu.com/question/450039091/answer/2952680112
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

1.“Fine-tuning Language Models from Human Preferences” by Zhang et al. (2019):该论文指出,BERT的生成速度相对较慢,并且由于是自回归模型,无法一次生成多个词,这使得在一些生成任务中,BERT的效率可能不如一些并行的生成模型。
2.“Domain Adaptive Text Generation Through Self-Supervision” by Li et al. (2020):该论文指出,BERT是在大规模无监督数据上进行预训练的,因此在生成任务中可能无法捕捉到一些特定领域或任务的细微差异。
3.“Assessing the Ability of Transformer-Based Language Models to Generate Contextually Relevant Text” by Hossain et al. (2020):该论文指出,BERT的生成质量取决于输入的上下文,因此在输入上下文较少或不完整的情况下,它可能无法产生合理的生成结果。
4.“Text Generation with Exponential Memory Self-Attention” by Grave et al. (2019):该论文指出,BERT缺乏对生成任务中先前生成的单词的记忆,因此在生成长文本时,可能会出现不连贯的问题。该论文提出了一种新的自注意力机制,能够在一定程度上解决这个问题。
5.BERT在生成任务中表现欠佳的限制:Zhang, X., Han, X., Huang, T., & Liu, X. (2021). On the Weaknesses of the Transformer-XL Language Model for Data-to-Text Generation. arXiv preprint arXiv:2106.06238.
虽然BERT可以用于一些生成任务,但对于一些需要产生连贯、长文本的生成任务,可能需要更加专门化的生成模型来取代BERT。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值