李宏毅nlp学习笔记05：BERT

最新推荐文章于 2024-05-15 12:53:48 发布

cc 提升ing 变优秀ing

最新推荐文章于 2024-05-15 12:53:48 发布

阅读量639

点赞数 2

分类专栏： nlp视频笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42721412/article/details/109579416

版权

本文详细介绍了BERT模型的工作原理，包括Context Vector、自监督学习、预测下一个token、双向Transformer和遮盖策略。BERT通过遮盖部分输入token，利用Transformer结构考虑上下文关系，改进了传统CBOW模型的局限。此外，还提及了XLNet、ELECTRA等模型的创新之处，以及在Sentence Embedding和序列生成任务中的应用。

摘要由CSDN通过智能技术生成

1.Context Vector（考虑上下文关系的向量）：

在这里插入图片描述

2.self-supervised learning（自监督学习）：

在这里插入图片描述

3.预测下一个token：

在这里插入图片描述
需要注意的是，输入w1来预测出w2的时候，是不能同时把w2输入的，很显然的。否则模型直接训练为与下一个输入相同即可。
通过h1来得出输出为w1的方法，上图中的右侧为一种方法。
最早的使用的model 是一个LSTM：
在这里插入图片描述

现在一般使用的是self-attention：

具体是使用了with constraint（限制注意力矩阵中的那些位置可以运算），以防止获取到未来的信息。
比如四个的时候，只有绿色的部分才能够进行计算，白色的部分不能。
在这里插入图片描述

4.从上面可以得到，我们可以使用Predict next token来产生一个文章

最低0.47元/天解锁文章

cc 提升ing 变优秀ing

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
李宏毅nlp学习笔记05：BERT

1.Context Vector（考虑上下文关系的向量）：2.self-supervised learning（自监督学习）：3.预测下一个token：需要注意的是，输入w1来预测出w2的时候，是不能同时把w2输入的，很显然的。否则模型直接训练为与下一个输入相同即可。通过h1来得出输出为w1的方法，上图中的右侧为一种方法。最早的使用的model 是一个LSTM：现在一般使用的是self-attention：具体是使用了with constraint（限制注意力矩阵中的那些位置可以运算）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。