Bert在干嘛

最新推荐文章于 2024-03-30 20:01:41 发布

叩钉吧zz

最新推荐文章于 2024-03-30 20:01:41 发布

阅读量1k

点赞数

分类专栏：深度学习探索文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40827685/article/details/109650398

版权

深度学习探索专栏收录该内容

13 篇文章 0 订阅

订阅专栏

bert中transformer用到了s2smodel, 那么啥是seq2seq model呢：

Seq2Seq model:

A Seq2Seq model is a model that takes a sequence of items (words, letters, time series, etc) and outputs another sequence of items. ... The encoder captures the context of the input sequence in the form of a hidden state vector and sends it to the decoder, which then produces the output sequence.

Bert 主要在完成两个任务

任务1：预测遮挡单词：

bert随机遮挡单词

把遮挡的单词作为标签

bert预训练不需要任何人工标注的数据集。可以用维基百科，自动生成标签。这样，训练数据要多少有多少。

任务2：预测句子相邻否

一条训练数据包括两句话，两句话都被分成很多的符号。

二分类可以强化一种关联。让两句话包含一种关系。

然后让两个任务连接起来：

首先把两句话连接起来，遮住15%的单词（假设这时有两个单词被遮挡）。

任务1-2：预测两个被遮住的单词（多分类任务
任务3：判断两句话是否真的相邻（二分类问题

这就需要有3个损失函数。分别训练

Bert优点：

对于任务1-2：判断被遮住的单词，这属于一个多分类问题。因为每个单词可以看成一种lebel, 最后判断是哪个单词也是得到一个针对每个单词的概率，概率最大的单词就是预测的单词。label算是遮挡的哪个单词

对于任务3：二分类问题，判断是否相邻。label: 如果相邻，则true, 如果第二句话是随机找的，那就是false.

优点：因此，bert可以直接从论文或者网页中随机截取两句话作为训练数据，标签也就自动生成了。因此，bert有海量的数据，还不用人工标记标签。

Reference :

https://towardsdatascience.com/day-1-2-attention-seq2seq-models-65df3f49e263

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Bert在干嘛

首先Bert是word embedding的一种。Bert 主要在完成两个任务任务1：预测遮挡单词：bert随机遮挡单词把遮挡的单词作为标签bert预训练不需要任何人工标注的数据集。可以用维基百科，自动生成标签。这样，训练数据要多少有多少。任务2：预测句子相邻否一条训练数据包括两句话，两句话都被分成很多的符号。二分类可以强化一种关联。让两句话包含一种关系。然后让两个任务连接起来：首先把两句话连接起来，遮住15%的单词（假设这时有两个单词被遮挡）。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。