BERT
姆爷
NLP资浅从业者
展开
-
BERT面试8问8答
近期对BERT系列综述了一番,但记得以前刚接触BERT的时候有很多疑问,之后通过看博客、论文陆续弄明白了。这次就以QA的形式将关于BERT的疑问及其相应解答分享给大家,不足之处,望请指出。关注【NLP有品】后期会不定期分享各个版本bert的详细解读以及实战代码,敬请期待。(1)BERT的MASK方式的优缺点?答:BERT的mask方式:在选择mask的15%的词当中,80%情况下使用mask掉这个词,10%情况下采用一个任意词替换,剩余10%情况下保持原词汇不变。优点:1)被随机选择15%的词.原创 2020-05-27 13:34:24 · 964 阅读 · 0 评论 -
BERT家族:StructBERT
StructBERT论文:《STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING》论文地址:https://arxiv.org/pdf/1908.04577作者/机构:阿里巴巴年份:2019.9StructBERT 是将语言结构信息融入进Bert,来提高其性能,其主要是增加了两个基于语言结构的训练目标:词序(word-level ordering)重构原创 2020-05-27 10:27:35 · 548 阅读 · 0 评论 -
BERT家族:SemBert
SemBert论文:《Semantics-aware BERT for Language Understanding》论文地址:https://arxiv.org/pdf/1909.02209作者/机构:上海交通大学+云从科技年份:2019.9SemBERT是将语义角色标注(SRL,Semantic Role Labeling)信息结合进去,来提高BERT的性能。K-BERT对BERT的预训练过程做了如下步骤的改进:(1)获取SRL标注使用目前最优的语义角色标注器deep-s原创 2020-05-26 11:26:22 · 697 阅读 · 0 评论 -
BERT家族:K-BERT
K-BERT论文:《K-BERT: Enabling Language Representation with Knowledge Graph》论文地址:https://arxiv.org/pdf/1909.07606v1作者/机构:北京大学+腾讯年份:2019.9K-BERT主要是为了提升BERT在知识驱动任务上微调性能,由于通用语料训练的BERT模型在知识驱动型的任务上较大的领域差异,微调效果欠佳。K-BERT通过将知识图谱的三元组信息引入到BERT的预训练中,使能够模型习得特殊原创 2020-05-26 11:24:57 · 1111 阅读 · 0 评论 -
BERT家族:sentence-BERT
sentence-BERT论文:《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》论文地址:https://arxiv.org/pdf/1908.10084作者/机构:达姆施塔特工业大学年份:2019.8Sentence-BERT主要是解决Bert语义相似度检索的巨大时间开销和其句子表征不适用于非监督任务如聚类,句子相似度计算等而提出的。Sentence-BERT使用鉴孪生网络结构,获取句子对的向量表示,然原创 2020-05-26 11:21:00 · 2784 阅读 · 0 评论 -
BERT家族:DistillBERT
DistillBERT论文:《DistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter》论文地址:https://arxiv.org/pdf/1910.01108作者/机构:Hugging face年份:2019.10DistillBert是在Bert的基础上用知识蒸馏技术训练出来的小型化bert,通过teacher model的soft target作为total loss的一部分,以诱导s原创 2020-05-26 11:19:27 · 1468 阅读 · 0 评论 -
BERT家族:TinyBERT
TinyBERT论文:《TINYBERT:DISTILLINGBERTFORNATURALLAN-GUAGEUNDERSTANDING》论文地址:https://arxiv.org/pdf/1909.10351作者/机构:华科+华为诺亚方舟实验室年份:2019.9TinyBert通过对Bert 编码器中的Transformer进行压缩,使用两段式学习框架在精度允许范围内节约了计算资源和推理速度。其改进点如下:(1)Transformer蒸馏法为了在加快推理速度和降低模型大小的原创 2020-05-26 11:18:04 · 747 阅读 · 0 评论 -
BERT家族:spanBERT
SpanBERT论文:《SpanBERT: Improving Pre-training by Representing and Predicting Spans》论文地址:https://arxiv.org/pdf/1907.10529作者/机构:华盛顿大学+普林斯顿大学年份:2019.8SpanBERT对Bert的改进主要体现在对mask方式的改进,丢弃NSP任务和增加SBO(Span Boundary Objective)任务。其改进点如下:(1)Span mask方案原创 2020-05-26 11:15:32 · 1972 阅读 · 0 评论 -
BERT家族:BERT-WWM
BERT-WWM论文:《Pre-Training with WholeWord Masking for Chinese BERT》论文地址:https://arxiv.org/pdf/1906.08101作者/机构:讯飞+哈工大年份:2019.7BERT-WWM对Bert的改进主要体现在mask的方式上,使用全词mask。其改进点如下:与百度ERNIE相比,BERT-WWM不仅仅是连续mask实体词和短语,而是连续mask所有能组成中文词语的字。具体做法是,针对中文,如果一个完整的词原创 2020-05-26 11:07:11 · 3880 阅读 · 0 评论 -
BERT家族:ERNIE
ERNIE论文:《ERNIE: Enhanced Representation from kNowledge IntEgration》论文地址:https://arxiv.org/pdf/1904.09223v1作者/机构:百度年份:2019.3ERNIE对Bert的改进主要体现在mask的方式上,将中文单字的mask改为连续的实体词和短语mask,事Bert能够学习到真实世界的语义知识信息,以此来提高Bert的性能。另外,之后清华也出了一个版本的ERNIE,它将知识图谱融入到语原创 2020-05-26 11:03:04 · 323 阅读 · 0 评论 -
BERT家族:ELECTRA
ELECTRA论文:《Efficiently Learning an Encoder that Classifies Token Replacements Accurately》论文地址:https://openreview.net/attachment?id=r1xMH1BtvB&name=original_pdf作者/机构:斯坦福+google年份:2019.11ELECTRA对Bert的改进最主要的体现在是提出了新的预训练任务和框架,把生成式的Masked language原创 2020-05-26 10:59:31 · 351 阅读 · 0 评论 -
万字长文带你纵览 BERT 家族
目录1.BERT1.1概述1.2模型解读1.3BERT的特点1.4用法2.BERT的后代2.1XL-Net2.2RoBERTa2.3ALBERT2.4ELECTRA2.5ERNIE2.6BERT-WWM2.7SpanBERT2.8 TinyBERT2.9DistillBERT2.10sentence-BERT2.11K-BERT2.12SemBert2.13StructBERT自18年底谷...原创 2020-05-26 10:51:02 · 1782 阅读 · 0 评论 -
BERT家族:ALBERT
ALBERT论文:《ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations》论文地址:https://arxiv.org/pdf/1909.11942作者/机构:google年份:2019.9采用了全新的参数共享机制,反观其他升级版BERT模型,基本都是添加了更多的预训练任务,增大数据量等轻微的改动。这次ALBERT的改进,不仅提升了模型的整体效果再一次拿下来各项榜单的榜首,而且参数量相比B原创 2020-05-25 22:01:44 · 401 阅读 · 0 评论 -
BERT家族:XL-NET
XL-Net论文:《XLNet: Generalized Autoregressive Pretraining for Language Understanding》论文地址:https://arxiv.org/pdf/1906.08237v1作者/机构:CMU+google年份:2019.6XL-NET主要是通过改变MLM了训练的方式,来提高Bert的性能,提出了自回归(AR,autoregressive)语言模型训练方法,另外还针对长文本任务将transformer替换为tran原创 2020-05-25 21:58:58 · 333 阅读 · 0 评论 -
BERT家族:族长BERT
自18年底谷歌BERT问世以后,NLP便逐渐步入bert时代,bert家族儿孙满堂,如RoBERTa、ALBert、ERNIE等等,这些bert们正在给并持续给nlp领域输入无限生机,让人工智能皇冠上的明珠更加光彩夺目,在其光芒的照耀下,人类的人工智能之路必定越来越清晰、明朗。通过阅读大量博客资料,知乎专栏和论文,文本以通俗易懂而不失专业的方式总结了Bert以及其13个衍生版本,分享给大家,不足之处,望请指出。后期会不定期分享各个版本bert的详细解读以及实战代码,敬请期待。1.BERT论文:.原创 2020-05-25 16:32:32 · 440 阅读 · 0 评论