经典论文阅读（4）——BERT

最新推荐文章于 2024-10-14 10:34:49 发布

fmf1287

最新推荐文章于 2024-10-14 10:34:49 发布

阅读量428

点赞数

分类专栏：经典论文文章标签： bert 自然语言处理 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fmf1287/article/details/121752553

版权

经典论文专栏收录该内容

10 篇文章 2 订阅

订阅专栏

BERT依赖于所有层的上下文进行预训练，学习深度双向表征。

屏蔽语言模型MLM随机屏蔽了输入中的一些标记，其目的是根据上下文预测被屏蔽的单词。MLM的目标是将表征融合上下文，以预训练一个深度双向Transformer。除了MLM，还用了一个“下一句预测”任务联合预训练文本对表示。

输入表征

一个输入token的表征为相应的token embedding、segment embedding、position embedding相加。

预训练BERT

利用MLM和NSP两个无监督任务对BERT进行预训练。

任务1：MLM

直观上，一个深度双向模型比left-to-right模型或left-to-right模型和right-to-left模型的浅层concat更加强大。但是标准的条件语言模型必须从左向右和从右向左训练，而双向条件语言模型允许间接”看到自己“。为解决该问题，随机选取15%的单词替换为[MASK]进行预测。由于微调时不会出现[MASK]字符，与预训练不匹配，因此在这15%的单词中：1）80%的替换为[MASK]；2）10%的随机替换为其他单词；3）10%的为原单词。

任务2：NSP

选取句子A和B作为一个训练样本，B有50%的概率为真实的下一句（IsNext），有50%的概率为语料中随机选取的下一句（NotNext）。

$BERT_{base}$ 包含12个Transformer block，12个self-attention头，隐藏层维度为768

$BERT_{large}$ 包含24个Transformer block，16个self-attention头，隐藏层维度为1024

精调BERT

对于每个任务，我们只需将特定于任务的输入和输出插入BERT中，然后端到端微调所有参数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

fmf1287 CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

4万+: 周排名

232万+: 总排名

3万+: 访问

: 等级

215: 积分

3174: 粉丝

20: 获赞

16: 评论

193: 收藏

私信

关注

分类专栏

最新评论

GCN论文阅读与代码梳理（1）——AGCRN
郭月半: 注意到一个超参数real_value设为true是什么作用，而且在BasicTrainer，py文件74行， if self.args.real_value: label = self.scaler.inverse_transform(label)#这怎么只反转目标值，不反转预测值，用标准化后的值预测真实值？ loss = self.loss(output.cuda(), label)
GCN论文阅读与代码梳理（4）——GAT
全粘大学生: 注意力共享是什么意思
GCN论文阅读与代码梳理（3）——ASTGCN
wys0910: 现在用pyg的代码好少啊，全是自己手动写，我功力没那么厚啊
GCN论文阅读与代码梳理（3）——ASTGCN
infinity°º: 麻烦问下博主。有原来paper的代码吗？可以共享下吗
GCN论文阅读与代码梳理（3）——ASTGCN
沉下心来_: rhs = T_k_with_at.permute(0, 2, 1).matmul(graph_signal) # (N, N)(b, N, F_in) = (b, N, F_in) 因为是左乘，所以多行和为1变为多列和为1，即一行之和为1，进行左乘。有人理解这句话的意思吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。