预训练语言模型学习笔记

这篇博客探讨了预训练语言模型如何处理长序列问题,如Transformer-XL的片段跨越内容处理和Reformer的局部敏感哈希注意力。此外,解释了Bert在不同任务中的应用,如分类、抽取式阅读理解,以及微调方法,包括固定预训练模型作为特征提取器和全模型微调。最后,提出了Adaptor层的概念,用于在微调时减少模型参数的存储需求,提高集成学习的便利性。
摘要由CSDN通过智能技术生成

Bert解决长序列问题 架构设计

为了能让机器可以读非常长的序列,Transformer-XL 可以让机器读跨越片段的内容。为了让自注意力的计算复杂度变小,从 O(T²) 变成了 O(TlogT),甚至更低, Reformer 使用了局部敏感性的哈希注意力。为了让自注意力的空间复杂度也变小,从O(T²)变小,Longformer 用注意力模式来稀疏完整的注意力矩阵。

 

预训练语言模型要如何做不同任务呢?(Bert)

如果输入是两个句子,中间用 [SEP] 分隔符分开,输出接一个MLP分类,端到端训练下来就结束了。如果输出是一个类别,有两种做法。一种是直接对 [CLS] 这个 token 的嵌入接 MLP 进行分类。另一种是把所有位置的嵌入接 MLP 进行分类。如果输出是每个位置一个类别,则对非 [CLS] 的 token 各接一个MLP,输出分类。

 

如果输出需要复制部分的输入,比如抽取式机器阅读理解。则输出接两个 MLP,一个输出答案的开始位置,一个输出答案的结尾位置。见下图:

 

 

 

预训练语言模型要如何进行微调呢?

一种方法是固定住预训练语言模型,让它作为一个特征提取器。训练的时候,只训练下面接的 MLP 的参数。另一种是不固定住预训练语言模型,对整个模型进行训练微调。第二种方法实践中会好很多。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值