bert中的sep_详解BERT阅读理解

BERT模型在阅读理解中取得了显著进步,简化了Seq2Seq方法。通过预训练的Masked Language Model和Next Sentence Prediction,BERT能高效处理任务。在应用时,输入包含[CLS]和[SEP]特殊标记,经过Token、Segment和Position Embedding处理,通过Transformer Encoder得到深层表示,再接上额外网络预测答案起始和结束位置。
摘要由CSDN通过智能技术生成

BERT的简单回顾

Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》,提到的BERT模型刷新了自然语言处理的11项记录。算是NLP的里程碑事件,也开始了大公司之间的数据和算力的装备竞赛。放一篇比较好的中文论文翻译。

BERT在阅读理解领域带了很大的进展,在BERT的出现之前最好的模型基本都是使用的Seq2Seq方法,分五步走,相当复杂。BERT出现后,只需要在BERT后面加上简单的网络就可达到特别好的效果。所以理解BERT用于阅读理解是非常重要的。

下图是SQUAD2.0的排名,截止到19年7月1日。

BERT Base的参数

对于英文阅读理解任务来说,可以选择Base版或者Large版,对于中文来说只有Base版。BERT本身用的是Transformer的Encoder部分,只是堆了很多层,换了个训练任务而已。

下面简单看一下BERT的各层的参数量,全连接层占比半数以上,和TokenEmbedding加起来占比70左右。而最重要的Attention只有27.5,这是12层的参数,除以12后相当少了。这里有个小的思路,通过对全连接层进行压缩,以及对Embedding层压缩或许可以达到小而美的结果(PS. 下一篇顶会就是你)。

参数量

占比

MultiHeadSelfAttention

2362368*12

27.55%

Tok

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值