bert中的sep_详解BERT阅读理解

最新推荐文章于 2023-06-07 16:55:43 发布

weixin_39640444

最新推荐文章于 2023-06-07 16:55:43 发布

阅读量1.6k

点赞数

文章标签： bert中的sep

本文链接：https://blog.csdn.net/weixin_39640444/article/details/111557132

版权

BERT模型在阅读理解中取得了显著进步，简化了Seq2Seq方法。通过预训练的Masked Language Model和Next Sentence Prediction，BERT能高效处理任务。在应用时，输入包含[CLS]和[SEP]特殊标记，经过Token、Segment和Position Embedding处理，通过Transformer Encoder得到深层表示，再接上额外网络预测答案起始和结束位置。

摘要由CSDN通过智能技术生成

BERT的简单回顾

Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》，提到的BERT模型刷新了自然语言处理的11项记录。算是NLP的里程碑事件，也开始了大公司之间的数据和算力的装备竞赛。放一篇比较好的中文论文翻译。

BERT在阅读理解领域带了很大的进展，在BERT的出现之前最好的模型基本都是使用的Seq2Seq方法，分五步走，相当复杂。BERT出现后，只需要在BERT后面加上简单的网络就可达到特别好的效果。所以理解BERT用于阅读理解是非常重要的。

下图是SQUAD2.0的排名，截止到19年7月1日。

BERT Base的参数

对于英文阅读理解任务来说，可以选择Base版或者Large版，对于中文来说只有Base版。BERT本身用的是Transformer的Encoder部分，只是堆了很多层，换了个训练任务而已。

下面简单看一下BERT的各层的参数量，全连接层占比半数以上，和TokenEmbedding加起来占比70左右。而最重要的Attention只有27.5，这是12层的参数，除以12后相当少了。这里有个小的思路，通过对全连接层进行压缩，以及对Embedding层压缩或许可以达到小而美的结果(PS. 下一篇顶会就是你)。

层

参数量

占比

MultiHeadSelfAttention

2362368*12

27.55%

Tok

最低0.47元/天解锁文章

weixin_39640444

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫