bert论文笔记

本文所有图表均来自https://arxiv.org/pdf/1810.04805.pdf论文中

1。为什么要提出bert模型,相比于其他模型bert模型的 区别和优势

在传统的语言模型中,在这里bert主要比较的是GPT和之前的RNN,相较于RNN模型,bert采用的tranformer的encoder可以并行的优势发挥出来,相较于ELMo,bert采用了tranfoermer特征提取器,使得特征提取的更加完善,而相比于GPT,bert提取文本双向的信息。

在bert之后,预训练模式出圈了 ,所谓的pretrain-train,在一个无标记的数据集上训练的模型,将这个模型的主要的目标是用在别的任务上。

bert的两个训练任务,1.mask预测。2.预测两个句子是否相同

bert一般有三个可调参数 L: block的个数,A代表头的数量 H:代表隐层的数量

base 12 2.hidden 3.110M参数

large 24 1024 340M参数。

bert模型的复杂度与模型的深度层数成线性关心,根据模型的宽度成平方关系。

Encoder的过程中,使用了wordPieceqiece切词模型,如果一个词在词典中出现的概率出现不大的情况下,把它切成一个个子序列,如果他的子序列可能是一个词根。出现的概率比较大的话,只保留他的子序列

MLM的掩码过程,15%的序列替换特定的词源,有80%的概率被替换,10%被随机替换,10%保持变

2,在句子预测的过程中为了让模型识别数据中的不同句子。

这里采用了segment 向量和[seq]进行区分保持,模型可以识别到句子

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值