BERT学习

bert通过对语料进行无监督学习,该模型自动学习各种信息。

一:模型简介

1、结构:

        bert是个有12层encoder组成的结构,只有encoder,没有decoder。

        encoder的结构,来自transformer:

 

2、无监督语料MLM-AR/AE

        AR:自回归模型(通过概率推导);AE:自编码模型(通过掩码)。

        AR:P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃)

        AE:P(我爱吃饭|我爱mask饭) = P(mask=吃|我爱饭) 

        bert采用AE。即,通过从mask周围的文本进行学习,使得mask文本无线接近原词汇。但mask模型,是假定其每个mask的词是独立同分布。

        bert:0.15的概率采用mask。但在mask的内容里:10%不动+10%替换其他+80%替换mask

#function:create_masked_lm_predictions
#file:create_pretraining_data.py

masked_token = NONE

if rng.random() < 0.8:
    masked_token = "[mask]"
else :
    if rng.random() < 0.5:
        masked_token = token[index]#不变
    else :
        masked_token = vocab_words[rng.randint( 0 , len (vocab_words) - 1)#随机替换

二:适用分析

1、微博情感分析步骤

        通用预料训练LM(pretrain)-google bert

        相同领域训练LM(Domain transfer)-大量微博数据训练bert

                建议:动态mask。epoch对mask的训练采用动态;做n-gram mask

        任务相关的小数据训练LM(Task transfer)-在微博情感文本+部分非情感文本分析bert

        相关数据做微调,fine-tune

2、  

cite:

Transformer各层网络结构详解!面试必备!(附代码实现) - mantch - 博客园

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值