BERT模型（学习笔记）

最新推荐文章于 2024-06-03 21:55:41 发布

蓝鲸123

最新推荐文章于 2024-06-03 21:55:41 发布

阅读量435

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TH_NUM/article/details/106179641

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

BERT: Bidirectional Encoder Representations from Transformers

主要工作：
（1）预训练：使用预训练的模型去提取词或者句子的特征
（2）问题：语言模型使用左边或者右边的上下文，但是语言理解是双向的。
循环网络中双向使用很多，但是在transformer中双向这里是第一次出现。
(3)原因： Words 可以“See themselves” 在双向的编码器中。

在这里插入图片描述
GPT和BERT的区别是双向网络，Self-Attention的假设是句子没有顺序，一个词可以与前后相关。

改进

（1）特征工程
输入表示：输入是token embeddings、sement embeddings、和position embeddings。
sement embeddings 不仅仅是单个词，还有短语
在这里插入图片描述
（2）多任务学习

Masked Language Model
Mask out k% input words 然后预测。
例如：
Toady is a [MASK] day.
Mask 太多：上下文信息不够
Mask 太少：训练的复杂度高
Mask只在预训练中使用，类似迁移学习。
训练和预测的过程不一样，就会出现 Train-inference mismatch.解决的办法： Scheduled Sampling.
Scheduled Sampling:
80% of time, replace with [MASK]
10% of time, replace with random word
10% of time , keep same

任务2: 下一个句子预测
50% of time , choose a sequential sentence pair
50% of time, choose a random sentence pair
Feed the transformer output of into a dense layer to predict if it is a sequential pair

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

蓝鲸123 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。