Bert学习笔记

最新推荐文章于 2024-05-08 16:06:46 发布

niuniu5200+

最新推荐文章于 2024-05-08 16:06:46 发布

阅读量1.3k

点赞数

文章标签： bert 学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56332142/article/details/127872466

版权

bert是什么

BERT被设计为通过在所有层的双向上下文上共同进行条件化来预训练未标记文本的深层双向表示。我们可以在仅一个附加输出层的情况下对经过预训练的BERT模型进行微调，以创建适用于各种任务（例如问题解答和语言推断）的最新模型，进而减少了对NLP任务精心设计特定体系结构的需求。BERT是第一个基于微调的表示模型，可在一系列句子级和字符级任务上实现最先进的性能，优于许多特定于任务的体系结构。

怎么使用bert

self-Attention layer

input

token embedding + segment embedding +position embedding

token embedding

分词

segment embedding

有些任务是两句话一起放入输入X，而segment便是用来区分这两句话的。在Input那里就是用“[SEP]”作为标志符号。而“[CLS]”用来分类输入的两句话是否有上下文关系。

position embedding

因为我们的网络结构没有RNN 或者LSTM，因此我们无法得到序列的位置信息，所以需要构建一个position embedding 。例如属于同一句话的用0表示，属于另一句话的用1表示

Layer Normalization

对每句话的embedding做归一化，但切记不是batch normalization

预训练模型

input

就是Self-Attention Layer的输入，利用字典将每一个字或者单词用数字表示，并转换成token embedding + segment embedding + position embedding。序列的长度一般有512 或者 1024

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Bert学习笔记

Bert操作流程
复制链接

扫一扫

niuniu5200+ CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

168万+: 周排名

207万+: 总排名

1359: 访问

: 等级

13: 积分

1: 粉丝

0: 获赞

1: 评论

4: 收藏

私信

关注

热门文章

Bert学习笔记 1359

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。