Transformer 和 Transformer-XL——从基础框架理解BERT与XLNet

写在前面

前两天我正在微信上刷着消息,猛然间关注的几个学习号刷屏,又一个超强预训练语言模型问世——XLNet,它由卡耐基梅隆大学与谷歌大脑的研究者提出,在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。我想不少人和我一样,还没来得及完全消化BERT,如今大脑里的NLP知识就又要被XLNet刷新。这个场景,像极了去年还在看ELMo的我遇上BERT(苦笑)。写这篇博客主要是为了总结一些Transformer和Transformer-XL的特点。如有不正确的地方,欢迎大家指正,我将及时修改。

1. Transformer

2018年,谷歌BERT在朋友圈刷屏,各大公众号争相发布BERT的最新消息。这个号称“最强NLP预训练模型”刷新了NLP领域中11个任务。而Transformer,正是BERT中最核心的部分。同时我也认为,这是将是一种取替RNN或LSTM的模型。

1.1 从哪里来?

2017年,谷歌大脑(是的没错,还是他们)发表了文章《Attention Is All You Need》。正是在这篇文章里,谷歌团队提出了全新的模型Transformer。该模型可被应用于阅读理解、机器翻译等各项Seq2Seq任务中(Seq2Seq,即从序列到序列,通俗来说,就是输入一段文本,再输出一段文本)。文中提到,Transformer是第一个完全依靠自注意力机制来计算其输入和输出表示的转换模型,而不使用序列对齐的RNN或卷积

To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence aligned RNNs or convolution.

这句话似乎信息量很大,我们该如何理解?首先,我们可以从中总结出:以往都是用别的方法解决问题的。结合上文可知,这个任务正是如机器翻译这样的Seq2Seq任务,而Transformer的表现更为出色。因此,Transformer针对的任务或者说应用场景已经清晰。其次,这句话提到,Transformer方法完全依靠自注意力机制就能计算序列的表示。换句话说&

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
XLNetBERT都是当前领先的预训练语言模型,它们在NLP任务中表现出色。以下是XLNetBERT的比较分析: 1. 训练方式: - BERTBERT采用了掩码语言模型(Masked Language Model,MLM)和下一句预测(Next Sentence Prediction,NSP)的训练任务。 - XLNetXLNet采用了自回归语言模型(Autoregressive Language Model)的训练方式,通过预测单词的顺序来建模语言。 2. 上下文建模: - BERTBERT是基于Transformer的模型,它采用了双向上下文建模,即在预训练过程中同时考虑了上下文信息。 - XLNetXLNet也是基于Transformer的模型,但采用了自回归方式,能够建模所有可能的排列组合,因此它可以更好地处理长距离依赖性。 3. 掩码策略: - BERTBERT在输入时随机掩盖一部分单词或片段,然后通过上下文的其他单词进行预测。 - XLNetXLNet在输入时不进行掩码操作,而是通过自回归方式逐个预测每个单词。 4. 目标函数: - BERTBERT使用交叉熵作为目标函数,通过最大化正确预测的概率。 - XLNetXLNet使用了一种排列语言模型(Permutation Language Model)的目标函数,通过最大化所有可能排列的联合概率。 5. 训练效率: - BERT:由于BERT是基于掩码的方式进行训练,因此在训练过程中需要处理大量的掩码操作,相对较慢。 - XLNetXLNet采用自回归方式进行训练,避免了掩码操作,因此在训练过程中可以更高效地处理。 综上所述,XLNetBERT在训练方式、上下文建模、掩码策略、目标函数和训练效率等方面存在差异。具体选择哪个模型取决于任务的需求和性能的考量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值