BERT学习

最新推荐文章于 2024-06-13 10:56:25 发布

0x3fffffff

最新推荐文章于 2024-06-13 10:56:25 发布

阅读量1.3k

点赞数

分类专栏： nlp 文章标签： bert 深度学习自然语言处理

本文链接：https://blog.csdn.net/guanjian6334/article/details/122096516

版权

nlp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

bert通过对语料进行无监督学习，该模型自动学习各种信息。

一：模型简介

1、结构：

bert是个有12层encoder组成的结构，只有encoder，没有decoder。

encoder的结构，来自transformer：

2、无监督语料MLM-AR/AE

AR：自回归模型（通过概率推导）；AE：自编码模型（通过掩码）。

AR：P（我爱吃饭） = P（我）P（爱|我）P（吃|我爱）P（饭|我爱吃）

AE：P（我爱吃饭|我爱mask饭） = P（mask=吃|我爱饭）

bert采用AE。即，通过从mask周围的文本进行学习，使得mask文本无线接近原词汇。但mask模型，是假定其每个mask的词是独立同分布。

bert：0.15的概率采用mask。但在mask的内容里：10%不动+10%替换其他+80%替换mask

#function：create_masked_lm_predictions
#file：create_pretraining_data.py

masked_token = NONE

if rng.random() < 0.8:
    masked_token = "[mask]"
else :
    if rng.random() < 0.5:
        masked_token = token[index]#不变
    else :
        masked_token = vocab_words[rng.randint( 0 , len (vocab_words) - 1)#随机替换

二：适用分析

1、微博情感分析步骤

通用预料训练LM（pretrain）-google bert

相同领域训练LM（Domain transfer）-大量微博数据训练bert

建议：动态mask。epoch对mask的训练采用动态；做n-gram mask

任务相关的小数据训练LM（Task transfer）-在微博情感文本+部分非情感文本分析bert

相关数据做微调，fine-tune

2、

cite：

Transformer各层网络结构详解！面试必备！(附代码实现) - mantch - 博客园

0x3fffffff

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BERT学习

bert通过对语料进行无监督学习，该模型自动学习各种信息，。一：模型简介1、结构： bert是个有12层encoder组成的结构，只有encoder，没有decoder。2、无监督语料MLM-AR/AE AR：自回归模型（通过概率推导）；AE：自编码模型（通过掩码）。 AR：P（我爱吃饭） = P（我）P（爱|我）P（吃|我爱）P（饭|我爱吃） AE：P（我爱吃饭|我爱mask饭） = P（mask=吃|我爱饭）...
复制链接

扫一扫