bert

标题《Bert提取句子特征(pytorch_transformers)》

https://blog.csdn.net/weixin_41519463/article/details/100863313?utm_source=app

bertbase和bertlarge参数对比

Bert base的网络结构:

L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 1276812=110M

使用GPU内存:7G多

Bert base的网络结构:

) and BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).

使用GPU内存:32G多

标题使用bert获取中文词向量

https://blog.csdn.net/zhylhy520/article/details/87615772?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase

60分钟带你掌握nlp-bert理论与实战

bert预训练任务

在这里插入图片描述
在这里插入图片描述

bert微调,下游任务

output

(1)token representation
用于token-level tasks.比如问答,sequence tagging(序列标注)任务
(2)[cls] representation
用于分类任务,entailment和情感分析

selfattention

在这里插入图片描述
在这里插入图片描述

多头注意力机制

cnn通过多个filter提取不同特征,multihead通过多个头提取不同特征
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
一层encoder之后的输出依然是向量,再接一层……

batchnormalization和layernormalization

前者对,x1 x2 x3做normalization
后者对,x1 x2…本身做normalization
在这里插入图片描述

残差连接

两种准备,x,f(x)结果选取最好的那一个,至少不必原来差
在这里插入图片描述

decoder部分

在这里插入图片描述
mask机制
在这里插入图片描述

【NLP 中的Mask全解_hwaust2020的博客-CSDN博客_nlp领域句子padding后怎么mask】https://blog.csdn.net/hwaust2020/article/details/106522338

https://github.com/harvardnlp/annotated-transformer/issues/37

https://www.cnblogs.com/xianbin7/p/11349312.html

https://blog.csdn.net/u012526436/article/details/86295971
encoder-decoder attention
在这里插入图片描述

bert阅读理解

在这里插入图片描述
在这里插入图片描述

## decoder的mask
dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs)
dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)
dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)
dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs)
#decoder的计算输出
dec_outputs, dec_self_attn = MultiHeadAttention(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask)
dec_outputs, dec_enc_attn = MultiHeadAttention(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask)

## encoder的mask
enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs)
## encoder的计算输出
enc_outputs, attn = MultiHeadAttention(enc_inputs, enc_inputs, enc_inputs, enc_self_attn_mask)

参考代码:https://blog.csdn.net/lbw522/article/details/100932893?utm_source=app

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值