Bert系模型:RoBERTa, BART, ALBERT, etc 论文译读

Bert系模型:RoBERTa, BART, ALBERT, etc

====XLNet 论文解读====

Bert系模型:XLNet

杨植麟:为什么预处理模型XLNet比BERT、RoBERTa更加优越
https://blog.csdn.net/baaibeijing/article/details/107540053
https://blog.csdn.net/u012526436/article/details/93196139

https://blog.csdn.net/shark803/article/details/102536198
https://blog.csdn.net/qq_28385535/article/details/93608790

 

====RoBERTa 论文解读====

Bert系模型:RoBERTa

 

RoBERTa 详解,https://zhuanlan.zhihu.com/p/103205929

如何评价RoBERTa
https://www.zhihu.com/question/337776337/answer/768731809

====BART 论文解读====

Bert系模型:BART

最近huggingface的transformer库,增加了BART模型,Bart是该库中最早的Seq2Seq模型之一,
在文本生成任务,例如摘要抽取方面达到了SOTA的结果。


BART: Denoising Sequence-to-Sequence Pre-training翻译
https://blog.csdn.net/qq_28385535/article/details/109186704

BART原理简介与代码实战
https://zhuanlan.zhihu.com/p/121788986

====ALBERT 论文解读====

BERT的骨架,采用了Transformer以及GELU激活函数。
创新有三个:将embedding的参数进行了因式分解;  然后就是跨层的参数共享; 最后是抛弃了原来的
NSP任务,现在使用SOP任务。前两个更新的主要减少参数,第三个更新这已经算不上什么更新了,
已经有很多工作发现原来BERT中的下一句话预测这个任务并没有什么积极地影响。
根据文章的实验结果来看似乎参数共享对参数降低的影响比较大,同时也会影响模型的整体效果。

01.Factorized embedding parameterization

原始的BERT模型以及各种依据transformer来搞的预训练语言模型在输入的地方我们会发现它的E是
等于H的,其中E就是embedding size,H就是hidden size,也就是transformer的输入输出维度。
这就会导致一个问题,当我们的hidden size提升的时候,embedding size也需要提升,这就会导致
我们的embedding matrix维度的提升。所以这里作者将E和H进行了解绑,具体的操作其实就是在
embedding后面加入一个矩阵进行维度变换。E是永远不变的,后面H提高了后,我们在E的后面
进行一个升维操作,让E达到H的维度。这使得embedding参数的维度从O(V×H)到了O(V×E + E×H),
当E远远小于H的时候更加明显。

02.Cross-layer parameter sharing

之前transformer的每一层参数都是独立的,包括self-attention 和全连接,这样的话当层数增加
的时候,参数就会很明显的上升。之前有工作试过单独的将self-attention或者全连接进行共享,
都取得了一些效果。这里作者尝试将所有的参数进行共享,这其实就导致多层的attention其实
就是一层attention的叠加。同时作者通过实验还发现了,使用参数共享可以有效地提升模型的稳定程度。

03.Inter-sentence coherence loss

这里作者使用了一个新的loss,其实就是更改了原来BERT的一个子任务NSP, 原来NSP就是来预测
下一个句子的,也就是一个句子是不是另一个句子的下一个句子。这个任务的问题出在训练数据上面,
正例就是用的一个文档里面连续的两句话,但是负例使用的是不同文档里面的两句话。这就导致这个
任务包含了主题预测在里面,而主题预测又要比两句话连续性的预测简单太多。新的方法使用了
sentence-order prediction(SOP), 正例的构建和NSP是一样的,不过负例则是将两句话反过来。
实验的结果也证明这种方式要比之前好很多。但是这个这里应该不是首创了,百度的ERNIE貌似
也采用了一个这种的。

ref:

如何看待瘦身成功版BERT——ALBERT?
https://www.zhihu.com/question/347898375/answer/836563636
ALBERT 论文解读
https://zhuanlan.zhihu.com/p/88099919
阅读笔记:RoBERTa  https://blog.csdn.net/ljp1919/article/details/100666563

 

Ref:

XLNet: Generalized Autoregressive Pretraining for Language Understanding
https://arxiv.org/abs/1906.08237

RoBERTa: A Robustly Optimized BERT Pretraining Approach,
https://arxiv.org/abs/1907.11692
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension,ACL 2020
https://arxiv.org/abs/1910.13461
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
https://arxiv.org/abs/1909.11942

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值