BERT：面向语言理解的深度双向Transformer预训练

Scabbards_

已于 2025-03-25 10:51:45 修改

阅读量569

点赞数

分类专栏： 1500深度学习笔记文章标签： bert transformer 人工智能

于 2023-09-20 17:18:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/scabbards_/article/details/133072767

版权

1500深度学习笔记专栏收录该内容

67 篇文章

订阅专栏

参考视频：

BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

背景

BERT算是NLP里程碑式工作！让语言模型预训练出圈！

使用预训练模型做特征表示的时候一般有两类策略：

1. 基于特征 feature based （Elmo）把学到的特征和输入一起放进去做一个很好的特征表达

2. 基于微调 fine-tuning （GPT）

但是都用的是单向语言模型↑ 预测模型，所以限制了语言架构，比如说只能从左往右读

Masked Language Model

为了接触限制，BERT用的是一个带掩码的语言模型（MLM）（Masked Language Model），随机选字元，盖住，预测盖住的字

看多模态模型的时候有提到过！↑

next sentence prediction

在原文中随机取两个句子，让模型判断句子是否相邻

贡献

1. 说明双向信息的重要性

2.假设有比较好的预训练模型就不用对特定任务做特定的模型改动了

主要就是把前人的结果拓展到深的双向的模型架构上

相关工作

1. Unsupervised Feature-based Approches

2. Unsupervised Fine-tuning Approaches（GPT）

3. 在有标号的数据上进行迁移学习（Transfer Learning from Supervised Data)

方法

模型

本篇工作调整了L：Transformer模块的个数，H：隐藏层的个数以及A：自注意力头的个数

BERT 的总参数主要包括两个部分：

嵌入层（Embeddings）
多个 Transformer Block（包含多头自注意力和前馈层 MLP）

1️⃣ 嵌入层的参数

嵌入层包括：

Token Embeddings：词表大小 × 隐藏维度 H
Segment Embeddings（区分句子 A/B）：2 × H
Position Embeddings：最大句长（一般是 512）× H

通常词表大小是 30,000~32,000，保守记作 V。

所以嵌入层参数大约是：

Embedding 参数 ≈ V × H + 512 × H + 2 × H ≈ (V + 514) × H

2️⃣ Transformer Block 的参数

每个 Transformer Block 有两个主要模块：

🧠 (1) Multi-head Self Attention（多头自注意力）

这个模块包括三部分：Q、K、V的线性变换，以及输出层。

Q, K, V 每个是：H × H
共有三个 → 3 × H × H
输出层也有一个线性变换 → H × H

所以，一个注意力模块总共是：

Attention Layer 参数 = 4 × H × H

🧠 (2) MLP 前馈网络

MLP由两个线性层组成：

第一层：H → 4H → 参数：H × 4H
第二层：4H → H → 参数：4H × H

MLP 参数 = 4 × H × H + 4 × H × H = 8 × H × H

一个Transformer Block 参数 = (4 + 8) × H^2 = 12 × H^2

Transformer层参数 = L × 12 × H^2

总参数 = Embedding 参数+Transformer层参数= (V + 514) × H + L × 12 × H^2

输入和输出

输入：

序列（sequence）：既可以是句子，也可是句子对

切词方法： WordPiece，节省参数

序列的第一个词永远是序列[CLS]，因为bert希望它最后输出代表整个序列的一个信息

把两个句子合在一起的时候需要区分两个句子：

1）把每个句子后面放上特殊的词[SEP]

2) 学一个嵌入层

对每个词元进入BERT的向量表示，是词元本身的embedding，加句子embedding加position embedding

缺点：

与GPT（Improving Language Understanding by Generative Pre-Training）比，BERT用的是编码器，GPT用的是解码器。BERT做机器翻译、文本的摘要（生成类的任务）不好做。

写的不算全，后面看到后面补。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。