BERT详解

最新推荐文章于 2024-01-18 01:10:42 发布

Grateful_Dead424

最新推荐文章于 2024-01-18 01:10:42 发布

阅读量827

点赞数

文章标签： bert 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Grateful_Dead424/article/details/126368445

版权

BERT模型基于Transformer架构，其基础版使用12层encoder，大型版本则使用24层。预训练阶段，BERT利用无标注语料进行MLM和NSP任务，其中MLM假设mask独立但实际并非如此。NSP任务包括主题预测和连贯性判断，有助于提升模型在下游任务的表现。为优化Bert在特定领域的效果，通常会进行领域适应和微调。同时，对于脱敏数据，也有策略将其用于BERT的训练。

摘要由CSDN通过智能技术生成

在这里插入图片描述

bert base使用12层encoder（不是transformer）
bert large使用24层encoder

Bert输入部分详细解读

在这里插入图片描述
cls、sep存在因为bert预训练任务中有nsp任务（判断两个句子之间的关系）
将cls的输出向量接一个二分类器，去做一个二分类任务

预训练之MLM详解

在这里插入图片描述
bert在预训练的时候，使用的是大量的无标注的语料

认为mask是相互独立的，然而mask不是相互独立的

在这里插入图片描述

预训练之NSP任务详解

在这里插入图片描述
主题预测：两个样本是不是来自同一文档（很简单）
连贯性预测：两个段落是不是上下文关系

如何提升Bert下游任务表现

在这里插入图片描述

领域——>任务——>微调

bert是静态mask，我爱吃饭每次mask吃

脱敏数据如何使用bert

在这里插入图片描述

Grateful_Dead424

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
BERT详解

bert base使用12层encoder（不是transformer）bert large使用24层encoder。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。