BERT模型讲解

原创已于 2025-05-09 16:59:14 修改

· 3.3k 阅读

·

4

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#bert #人工智能 #深度学习

于 2025-05-09 16:32:56 首次发布

大模型专栏收录该内容

34 篇文章

订阅专栏

BERT的模型架构

BERT: Bidirectional Encoder Representations from Transformers

BERT这个名称直接反映了：它是一个基于Transformer编码器的双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说：

BERT-Base：堆叠了12层Encoder，12个注意力头，768维隐藏层，参数量约110M
BERT-Large：堆叠了24层Encoder，16个注意力头，1024维隐藏层，参数量约340M

BERT的输入表示

BERT的输入表示是其独特之处，包含三部分：

Token Embedding：词元嵌入，将输入的单词转换为向量表示
Segment Embedding：段落嵌入，用于区分输入中的不同句子
Position Embedding：位置嵌入，编码词元在序列中的位置信息

与原始Transformer使用三角函数计算的Position Encoding不同，BERT的Position Embedding是需要学习的参数。

BERT预训练方法

同时进行两项无监督任务的训练来学习语言，即：

掩码语言模型MLM
下一句预测NSP

接下来我们展开讲解两种任务

掩码语言模型（Masked Language Model, MLM）

即完形填空从而让大模型可以学到上下文。具体做法是（论文中并没讲述为何用这个比例，可能是因为这个比例效果更佳）：

随机选择输入tokens中的15%
对于被选中的tokens：
策略1- 80%的情况下，将其替换为特殊标记[MASK]
策略2- 10%的情况下，将其替换为随机词
策略3- 10%的情况下，保持不变

举例：我爱大语言模型
在这里插入图片描述

下一句预测（Next Sentence Prediction, NSP）

NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是，这也就是转为了二分类任务。

举例：我爱大语言模型
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

非常大模型 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。