bert

最新推荐文章于 2023-08-15 15:04:59 发布

奔波儿大王

最新推荐文章于 2023-08-15 15:04:59 发布

阅读量344

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_41557627/article/details/107747411

版权

笔记专栏收录该内容

113 篇文章 0 订阅

订阅专栏

标题《Bert提取句子特征（pytorch_transformers）》

https://blog.csdn.net/weixin_41519463/article/details/100863313?utm_source=app

bertbase和bertlarge参数对比

Bert base的网络结构：

L（网络层数）=12, H（隐藏层维度）=768, A（Attention 多头个数）=12, Total Parameters= 1276812=110M

使用GPU内存：7G多

Bert base的网络结构：

) and BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).

使用GPU内存：32G多

标题使用bert获取中文词向量

https://blog.csdn.net/zhylhy520/article/details/87615772?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase

60分钟带你掌握nlp-bert理论与实战

bert预训练任务

在这里插入图片描述

bert微调，下游任务

output

(1)token representation
用于token-level tasks.比如问答，sequence tagging(序列标注)任务
(2)[cls] representation
用于分类任务，entailment和情感分析

selfattention

在这里插入图片描述

多头注意力机制

cnn通过多个filter提取不同特征，multihead通过多个头提取不同特征
在这里插入图片描述

一层encoder之后的输出依然是向量，再接一层……

batchnormalization和layernormalization

前者对，x1 x2 x3做normalization
后者对，x1 x2…本身做normalization
在这里插入图片描述

残差连接

两种准备，x,f(x)结果选取最好的那一个,至少不必原来差
在这里插入图片描述

decoder部分

在这里插入图片描述
mask机制

【NLP 中的Mask全解_hwaust2020的博客-CSDN博客_nlp领域句子padding后怎么mask】https://blog.csdn.net/hwaust2020/article/details/106522338

https://github.com/harvardnlp/annotated-transformer/issues/37

https://www.cnblogs.com/xianbin7/p/11349312.html

https://blog.csdn.net/u012526436/article/details/86295971
encoder-decoder attention
在这里插入图片描述

bert阅读理解

在这里插入图片描述

## decoder的mask
dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs)
dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)
dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)
dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs)
#decoder的计算输出
dec_outputs, dec_self_attn = MultiHeadAttention(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask)
dec_outputs, dec_enc_attn = MultiHeadAttention(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask)

## encoder的mask
enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs)
## encoder的计算输出
enc_outputs, attn = MultiHeadAttention(enc_inputs, enc_inputs, enc_inputs, enc_self_attn_mask)

参考代码:https://blog.csdn.net/lbw522/article/details/100932893?utm_source=app

奔波儿大王

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
bert

标题《Bert提取句子特征（pytorch_transformers）》https://blog.csdn.net/weixin_41519463/article/details/100863313?utm_source=app使用bert获取中文词向量https://blog.csdn.net/zhylhy520/article/details/87615772?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMach
复制链接

扫一扫

专栏目录