Self-supervised Learning——BERT

最新推荐文章于 2021-09-15 10:34:51 发布

baibaidoudou

最新推荐文章于 2021-09-15 10:34:51 发布

阅读量153

点赞数

分类专栏：机器学习日记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baibaidoudou/article/details/119418732

版权

机器学习日记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

1.Self-supervised Learning

Supervised是要有label的资料

Self-supervised是让资料一部分作为model，一部分作为label

2.Masking Input

两种方法，要么随机盖住某个token，要么将此token随机换成别的词。

对其做Linear transform（矩阵）然后进行softmax得到一个分布

我们知道盖住的词是什么，BERT不知道，所以看输出的词与原来词的最小交叉熵

3.How to use BERT - case1(Sentiment analysis)

init by pre-train better than random

Case2(POS tagging词性标注)

Case3 （Natural Language Inference (NLI)）

premise：前提； hypothesis：假设

根据前提是否能推出假设，如果矛盾输出contradiction……

Case4 QA

文章document和问题Query都是句子，丢进QA Model里，输出标志s,e。那么答案就是 $d_s$ …… $d_e$

$d_1$ 表示文章里第一个词汇

橙色表示起始位置，蓝色表示终止位置，是唯二需要随机初始化的

先用橙色向量与document的token输出值进行卷积，得到数值最大的下标作为起始位置

同理，蓝色向量作为终止位置。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Self-supervised Learning——BERT

1.Self-supervised LearningSupervised是要有label的资料Self-supervised是让资料一部分作为model，一部分作为label2.Masking Input两种方法，要么随机盖住某个token，要么将此token随机换成别的词。对其做Linear transform（矩阵）然后进行softmax得到一个分布我们知道盖住的词是什么，BERT不知道，所以看输出的词与原来词的最小交叉熵3.How to us...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。