Bert预训练模型

fly_jx

已于 2022-05-07 13:19:25 修改

阅读量1.5k

点赞数

分类专栏：预训练模型文章标签：自然语言处理

于 2022-04-13 20:37:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42145837/article/details/124156635

版权

预训练模型专栏收录该内容

1 篇文章 1 订阅

订阅专栏

Bert预训练模型

1 架构

bert的输入是input_emb + pos_emb + seg_emb，分别是词向量，位置编码，句子编码
bert的编码端是由相同的编码层堆叠而成，每个编码层包括：多头自注意力机制，残差连接，layer norm, ffn， layer norm组成。

bert的编码层层数：12（base）, 24(large)
维度：768

2：bert的预训练任务

2.1 MLM（masked language model）

bert的MLM是对于输入文本，随机选取15%的token对其进行操作，操作的方法：80%替换程MASK，10%保持不变，10%替换成其他词。

目的：bert进行MLM是为了获得输入句子的上下文与被mask词的语义关系，但是为了适应下游任务（下游任务没有MASK符号）且获得该词本身的语义信息，选择80%MASK, 10%保持不变。同时为了防止模型偷懒记住这些MASK词本身的信息，引入10%的替换，这样模型就必须通过双向语义信息去推断预测词

2.2 NSP(next sentence prediction)

bert的第二个任务是预测输入的两个句子是否为连续，这是考虑到下游任务中存在任务需要对两个句子进行建模，因此bert引入了这个任务，并不是必须的。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Bert预训练模型

Bert预训练模型1 架构bert的输入是input_emb + pos_emb + seg_emb，分别是词向量，位置编码，句子编码bert的编码端是由相同的编码层堆叠而成，每个编码层包括：多头自注意力机制，残差连接，layer norm, ffn， layer norm组成。bert的编码层层数：12（base）, 24(large)维度：7682：bert的预训练任务2.1 MLM（masked language model）bert的MLM是对于输入文本，随机选取15%的token对
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。