标题《Bert提取句子特征(pytorch_transformers)》
https://blog.csdn.net/weixin_41519463/article/details/100863313?utm_source=app
bertbase和bertlarge参数对比
Bert base的网络结构:
L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 1276812=110M
使用GPU内存:7G多
Bert base的网络结构:
) and BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).
使用GPU内存:32G多
标题使用bert获取中文词向量
https://blog.csdn.net/zhylhy520/article/details/87615772?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase
60分钟带你掌握nlp-bert理论与实战
bert预训练任务
bert微调,下游任务
output
(1)token representation
用于token-level tasks.比如问答,sequence tagging(序列标注)任务
(2)[cls] representation
用于分类任务,entailment和情感分析
selfattention
多头注意力机制
cnn通过多个filter提取不同特征,multihead通过多个头提取不同特征
一层encoder之后的输出依然是向量,再接一层……
batchnormalization和layernormalization
前者对,x1 x2 x3做normalization
后者对,x1 x2…本身做normalization
残差连接
两种准备,x,f(x)结果选取最好的那一个,至少不必原来差
decoder部分
mask机制
【NLP 中的Mask全解_hwaust2020的博客-CSDN博客_nlp领域句子padding后怎么mask】https://blog.csdn.net/hwaust2020/article/details/106522338
https://github.com/harvardnlp/annotated-transformer/issues/37
https://www.cnblogs.com/xianbin7/p/11349312.html
https://blog.csdn.net/u012526436/article/details/86295971
encoder-decoder attention
bert阅读理解
## decoder的mask
dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs)
dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)
dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)
dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs)
#decoder的计算输出
dec_outputs, dec_self_attn = MultiHeadAttention(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask)
dec_outputs, dec_enc_attn = MultiHeadAttention(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask)
## encoder的mask
enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs)
## encoder的计算输出
enc_outputs, attn = MultiHeadAttention(enc_inputs, enc_inputs, enc_inputs, enc_self_attn_mask)
参考代码:https://blog.csdn.net/lbw522/article/details/100932893?utm_source=app