预训练模型

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史​​​​​​

Bert模型详解

BERT模型精讲

BERT模型训练

BERT是一个双向模型编码器 -> 获得token的语义信息

(1)pre-training + fine tuning(MLM、NSP + Softmax)

(2)pre-training + prompt

预训练任务NSP做Zero Shot

BERT模型参数量计算

(1)Embedding层

vocab_size * hidden_size(词表大小 * 隐藏层维度) 

base: 30522 * 768

(2)Transformer块

由L个transformer块组成, 每个transformer块由多头注意力机制和MLP组成

每个transformer块参数量计算:

hidden_size * hidden_size * 3 + hidden_size * hidden_size + 2 * hidden_size * 4 * hidden_size = 12 * hidden_size * hidden_size(QKV三个投影矩阵 + 一个全连接矩阵 + 两个MLP维度扩张转换矩阵)

base:12 * 12 * 768 * 768

BERT中的全连接层参数量占比达到50%,而注意力机制参数量只有30%左右,通过压缩全连接层参数量可以达到小而美的效果。

零次学习(Zero-Shot Learning)

NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task-Next Sentence Prediction

不同预训练模型对比

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值