bert 原理及源码分析（一）

最新推荐文章于 2024-05-29 16:20:17 发布

JJmaker

最新推荐文章于 2024-05-29 16:20:17 发布

阅读量3k

点赞数 1

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42522262/article/details/96856264

版权

全称：Bidirectional Encoder Representations from Transformers，即双向 transformer的encoder 表示。

bert 的结构图

中间的神经网络为 transformer。

Embedding

embedding 由 3 种 embedding 求和而成：
在这里插入图片描述
Token Embeddings：词向量
Segment Embeddings：句向量
Position Embeddings：位置向量

Pre-training

Pre-training Task 1：Masked LM
俗称完形填空任务。利用上下文信息预测出缺失的单词，是不是和 word2vec 中的 CBOW 很像？在训练过程中速记 mask 15 % 的 token，最终的损失函数只计算被 mask 掉的那个 token。
随机 mask 的时候 10% 的单词会被替代成其他单词，10% 的打车你不提换，80%的单词1被替换成 [MASK]。

该任务的目的是什么?
充分利用上下文信息。因为单项预测不能理解整个句子的语义。捕捉词语级别的表示
为什么会有10%，10%，80% 的替代情况而不是全部用 mask 替代？
全部用 mask替代的话，模型会将 mask 当作一个固定的词，这不是我们想要的。

Pre-traing Task 2：Next Sentence Prediction
训练的输入是句子 A 和 B，B 有一半的几率是 A 的下一句，模型预测 B 是不是 A 的下一句。

该任务的目的是什么？
捕捉句子级别的表示。可以应用在问答或阅读理解上，效果奇佳。
两个 loss 都是 cross entropy loss

Fine-tuning

在 pre-training 的基础上
分类：直接取第一个 token（即 CLS）的 hidden-state C，对其进行一个线性变换，再经过 softmax 转换得到 label probability。
文本匹配：输出为 label: [0,1] (是否匹配)，输入为待匹配的两个文本 text_a 和 text_b。
还可以用于标注、问答等任务上。

源码分析

相关代码如下：

create_pretraining_data.py
extract_features.py
modeling.py
modeling_test.py
optimization.py
optimization_test.py
run_classifier.py
run_classifier_with_tfhub.py
run_pretraining.py
run_squad.py
tokenization.py
tokenization_test.py

tokenization.py

功能：对原始文本进行预处理，分词。
主要分为 BasicTokenizer.py 和 WordpieceTokenizer 两类，以及对包含它们的类 FullTokenizer：作为对外的接口。

BasicTokenizer 中的函数：

<

最低0.47元/天解锁文章

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
bert 原理及源码分析（一）

全称：Bidirectional Encoder Representations from Transformers，即双向 transformer的encoder 表示。Embeddingembedding 由 3 种 embedding 求和而成：Token Embeddings：词向量Segment Embeddings：句向量Position Embeddings：位置向量P...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。