预训练语言模型学习笔记

最新推荐文章于 2022-12-21 16:11:15 发布

Wqanxiu

最新推荐文章于 2022-12-21 16:11:15 发布

阅读量307

点赞数

分类专栏： NLP 算法文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38343111/article/details/108619980

版权

这篇博客探讨了预训练语言模型如何处理长序列问题，如Transformer-XL的片段跨越内容处理和Reformer的局部敏感哈希注意力。此外，解释了Bert在不同任务中的应用，如分类、抽取式阅读理解，以及微调方法，包括固定预训练模型作为特征提取器和全模型微调。最后，提出了Adaptor层的概念，用于在微调时减少模型参数的存储需求，提高集成学习的便利性。

摘要由CSDN通过智能技术生成

Bert解决长序列问题架构设计

为了能让机器可以读非常长的序列，Transformer-XL 可以让机器读跨越片段的内容。为了让自注意力的计算复杂度变小，从 O(T²) 变成了 O(TlogT)，甚至更低， Reformer 使用了局部敏感性的哈希注意力。为了让自注意力的空间复杂度也变小，从O(T²)变小，Longformer 用注意力模式来稀疏完整的注意力矩阵。

预训练语言模型要如何做不同任务呢？（Bert）

如果输入是两个句子，中间用 [SEP] 分隔符分开，输出接一个MLP分类，端到端训练下来就结束了。如果输出是一个类别，有两种做法。一种是直接对 [CLS] 这个 token 的嵌入接 MLP 进行分类。另一种是把所有位置的嵌入接 MLP 进行分类。如果输出是每个位置一个类别，则对非 [CLS] 的 token 各接一个MLP，输出分类。

如果输出需要复制部分的输入，比如抽取式机器阅读理解。则输出接两个 MLP，一个输出答案的开始位置，一个输出答案的结尾位置。见下图：

预训练语言模型要如何进行微调呢？

一种方法是固定住预训练语言模型，让它作为一个特征提取器。训练的时候，只训练下面接的 MLP 的参数。另一种是不固定住预训练语言模型，对整个模型进行训练微调。第二种方法实践中会好很多。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
预训练语言模型学习笔记

Bert解决长序列问题架构设计为了能让机器可以读非常长的序列，Transformer-XL 可以让机器读跨越片段的内容。为了让自注意力的计算复杂度变小，从 O(T²) 变成了 O(TlogT)，甚至更低， Reformer 使用了局部敏感性的哈希注意力。为了让自注意力的空间复杂度也变小，从O(T²)变小，Longformer 用注意力模式来稀疏完整的注意力矩阵。预训练语言模型要如何做不同任务呢？（Bert）如果输入是两个句子，中间用 [SEP] 分隔符分开，输出接一个MLP分类，端到端训.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。