经典奠基作 | Bert 论文阅读

最新推荐文章于 2024-07-25 17:13:21 发布

Qodicat

最新推荐文章于 2024-07-25 17:13:21 发布

阅读量79

点赞数

分类专栏： AI前沿论文阅读文章标签：论文阅读人工智能 bert 深度学习自然语言处理机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q52099999/article/details/132110391

版权

AI前沿论文阅读专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1 背景

Bert是自然语言处理领域非常重要的一篇论文

在CV领域，很早就可以在一个大的数据集上预训练好一个模型，然后就可以应用在很多下游任务上表现很好。

但是在NLP上却没有很好的预训练模型，而Bert是系统开创这一篇工作的。

其实之前是有GPT系列，GPT系列是知道现在的句子预测下一个句子之类的，但这样就意味着是一种单向的信息，知道已有的一些句子，推测未来的句子。

Bert 这篇文章的标题告诉我们它是一个深度的transformer的双向编码器，这里这个双向是什么意思呢？就是Bert会利用两侧的信息，从左看到右，也可以从右看到左。这会比GPT只看到一侧信息要好的多

2 实现

而这个是怎么实现的呢？

实际就是通过带掩码的语言模型来实现，我们其实对这个不陌生，大家在中考高考的时候，做了很多英语的完形填空测试，这实际就是Bert的思想，没想到吧，完形填空蕴藏大智慧

除此之外，他还训练了一个模块，通过抽取两个句子，判断这两个句子是否相邻，从而学习到句子层面的信息

预训练好的bert

在传统的transformer里面呢，输入是一个句子对，分别给编码器和解码器，但是在当下的Bert里面呢，只有一个编码器，但是也可以输入一个句子对，具体怎么做呢

加了一个特殊的cls token 希望它的输出代表整个序列的信息

在每一个句子后面加一个SEP，表示separate 分割

3 其他细节

wordPiece嵌入

使用WordPiece嵌入，这里没有使用传统的嵌入维度等于词典维度，因为词典大小很大，百万级别的，所以会导致整个模型的参数都集中在嵌入层

Word Piece的话可以理解为词根一类的切割，单词很多，但词根词缀组成有限

加一个可学习的嵌入层，最后的位置信息包括两部分，一部分是位于哪个句子，另一个是位于句子的哪个位置

Mask怎么加

一个句子中15%的词做Mask处理

但15%的词也不是所有都Mask

而是只80%Mask ，10%随机替换成其他词，10%原封不动

解决预训练和微调的不匹配，因为微调的时候是完全没有Mask的

可不可以在我的一些工作中引入预训练呢

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
经典奠基作 | Bert 论文阅读

实际就是通过带掩码的语言模型来实现，我们其实对这个不陌生，大家在中考高考的时候，做了很多英语的完形填空测试，这实际就是Bert的思想，没想到吧，完形填空蕴藏大智慧。在传统的transformer里面呢，输入是一个句子对，分别给编码器和解码器，但是在当下的Bert里面呢，只有一个编码器，但是也可以输入一个句子对，具体怎么做呢。其实之前是有GPT系列，GPT系列是知道现在的句子预测下一个句子之类的，但这样就意味着是一种单向的信息，知道已有的一些句子，推测未来的句子。一个句子中15%的词做Mask处理。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。