Albert: A lite bert for self-supervised learning of language representations (Albert)

最新推荐文章于 2024-04-06 23:42:49 发布

BUPT-WT

最新推荐文章于 2024-04-06 23:42:49 发布

阅读量528

点赞数

分类专栏： NLP Paper

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/110516807

版权

NLP 同时被 2 个专栏收录

21 篇文章 3 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

Albert 历史意义:

1、Albert 各层之间采用参数共享和embedding因式分解减少参数量

2、在nlp预训练模型中正式采用轻量级bert模型

nlp领域(各个下游任务都有自身的模型) <-------- 2020(ALbert) -----------> nlp领域(采用轻量级bert模型Albert)

论文主要结构:

一、Abstract

介绍背景及提出Albert模型在多个数据集上的效果都表现优异

1、增加model size提高模型在下游任务中的表现，但是同时会增加训练时间且受限于内存限制

2、提出两种减少参数的策略来降低内存消耗和提高训练bert的速度

3、用一种句子间连贯性自监督loss，并且有助于下游任务的输入

4、实验证明模型效果较好且参数少很多

二、Introduction

介绍现在的预训练模型都面临着参数量比较大的问题，因此提出轻量级bert模型

三、Related Work

介绍目前参数共享和sentence ordered objectives的工作

四、Architecture

AlBert 网络结构及其内部细节，1、Factorized embedding parameterization 2、Cross-layer parameter sharing 3、inter-sentence coherence loss

1、Factorized embedding parameterization

在bert系列的模型中，wordEmbedding的维度E设置和Hidden Layer的维度H相等，存在的问题

1）WordEmbedding学习到的是context-independent的representation. Hidden Layer Embedding学习到的是context dependent 的 representation,把 E和H分开可以更高效的利用参数存储context信息H要远大于E

2) NLP任务中的vocab size很大，如果E==H模型参数量就很大，而embedding在实际的训练过程就会过于稀疏

O(V * H) >> O(V*E + E*H) 注: V-30w，H-768

2、Cross-layer parameter sharing

不同layer参数共享问题，主要包含三个部分，1）只共享attention相关参数 2）只共享FFN相关参数 3）共享所有参数

3、Inter-sentence coherence loss

NSP(next-sentece prediction) 正样本上下相邻两个句子，负样本随机从训练集中抽取两个句子

NSP效果不佳的原因：将主题预测和连贯性预测结合在一起，但主题预测比连续性预测简单的多，并且与MLM损失的学习到的内容有重合

SOP: 正样本正常顺序的两个相邻的句子，负样本调换顺序的两个相邻句子

五、Experiments

AlBert在各个nlp下游任务中结果对比

Bert：为了加速训练，前90%的steps使用128个token短句，最后10%才使用512个token的长句来训练position embedding

ALBERT：在90%的情况下，输入的segment取512个token，从数据上来看，更长的数据能够提供更多的上下文信息

六、Discussion

讨论模型未来方向

七、ConClusion

关键点:

1、减少参数量的两个细节 - Factorized embedding parameterization 和 cross-layer parameter sharing

2、句子连贯性 - Inter-sentence coherence loss

启发点:

1、参数量过大，可以参考参数共享的方式

八、Code

参考代码:https://github.com/brightmart/albert_zh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Albert: A lite bert for self-supervised learning of language representations (Albert)

Albert 历史意义:1、Albert 各层之间采用参数共享和embedding因式分解减少参数量2、在nlp预训练模型中正式采用轻量级bert模型nlp领域(各个下游任务都有自身的模型) <-------- 2020(ALbert) -----------> nlp领域(采用轻量级bert模型Albert)论文主要结构:一、Abstract 介绍背景及提出Albert模型在多个数据集上的效果都表现优异 1、增加model...
复制链接

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄7年

793: 原创

12万+: 周排名

73万+: 总排名

61万+: 访问

: 等级

1万+: 积分

363: 粉丝

260: 获赞

100: 评论

1132: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。