NLP-Bert

最新推荐文章于 2024-07-30 17:23:09 发布

Swayzzu

最新推荐文章于 2024-07-30 17:23:09 发布

阅读量679

点赞数

分类专栏： NLP 文章标签： python 深度学习 nlp Bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121620560

版权

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

1.词向量生成模型

①Masked Language Model

②Masked LM + transformer

1.词向量生成模型

语言模型：适合生成单词

语言模型+LSTM：把每个词的下一个词当做标签，相当于无监督学习

更好的词向量，可能是上下文都考虑的，上面的模型都是考虑的前面的词信息，而没有考虑上下文。

Bi-directional LSTM

在这个模型中，有两套LSTM，分别从两个方向进行，其实是相当于两个不一样的模型，在训练的过程中，把两个模型生成的结果拼接起来，然后输入模型，进行后续训练，得到词向量。

2.Bert

①Masked Language Model

之前所有的模型，都是通过前一个单词，对下一个单词进行生成，而在这里，则不再考虑“看到一个单词生成下一个”，而是通过所有的单词预测当前的单词。

输入的句子中把一些单词随机去掉，通过模型去预测这几个词。那么我们去掉的词就相当于label。

②Masked LM + transformer

当我们使用Masked LM的方法，然后输入到transformer中时，那么这个模型整体，就叫做Bert。

在Bert中，有2个地方会产生Loss，一个是对masked的单词进行预测之后，会有loss，另一方面，我们会在句子的开头添加一个[cls]的符号，这样将会除了预测的单词之外，生成一个context vector，带有一整句话的信息，可以用来接上分类器，这里也会产生loss。

其中，mask过程分成三个部分：

我们会随机选择所有词中的15%进行mask，而在这些词中，80%的会进行上面的mask方式的预测，10%的不进行mask的情况下预测本身，另外10%，会替换成其他的词，依旧是预测原来的词，通过这样的方式，能够提高模型的鲁棒性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP-Bert

Bert学习笔记
复制链接

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

30万+: 周排名

128万+: 总排名

12万+: 访问

: 等级

1143: 积分

29: 粉丝

60: 获赞

37: 评论

420: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。