摘要
我们介绍一种语言表示模型 B E R T BERT BERT,这是代表 t r a n s f o r m e r transformer transformer双向编码表示,
- 设计 B E R T BERT BERT去从无标签样本中预训练深度双向表示,通过共同调节所有层的left and right context
- 结果,预训练 B E R T BERT BERTmodel ,仅使用一个额外的输出层,来进行微调,对大量广泛的任务创造顶级的模型。比如,问答系统、语言推理、没有足够特定任务的架构调整。
- B E R T BERT BERT是一个简单概率但强有力的。其在11个顶级的自然语言处理任务上获得了顶级的效果。包括将 G L U E GLUE GLUE得分推高到 80.5 80.5% 80.5。
介绍
预训练语言模型很有效果,提升了很多自然语言处理任务。
包括
- sentence-level tasks such as natural language inference
- 句子级任务,自然语言推理。
- paraphrasing 意译
- 目的是预测句子间的关系,通过整体的分析它门。
- token-level tasks: named entity recognition and question answering,
- downstream task 下游任务
- feature-based and fine-tuning: 基于特征和微调
- 基于特征的方法**:ELMo、OpenAI GPT**
- the auther use a a left-to-right architecture
- 基于提出的 B E R T BERT BERT模型改善微调。
B i d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s f o r m e r s . Bidirectional Encoder Representations from Transformers. BidirectionalEncoderRepresentationsfromTransformers.
- 双向编码Transformers
- a masked language model M L M MLM MLM
-
这篇文章的贡献是
-
相关工作
-
Unsupervised Feature-based Approaches
- 积极的研究领域是:广泛的学习词语的应用表示。
- coarser granularities 粗粒度
- sentence embedding: 句子嵌入
- paragraph embeddings: 文段嵌入
- denoising 去噪
- context-sensitive features: 上下文敏感特性
- the robustness of 什么什么的稳健性
Unsupervised Fine-tuning Approaches
Transfer Learning from Supervised Data
从半监督学习中进行迁移学习
BERT
- pre-training and fine-tuning
- a multi-layer bidirectional Transformer encoder: 多层的 T r a n s f o r m e r Transformer Transformerencoder
Pre-training BERT
Masked LM
Pre-training data
Fine-tuning BERT
结论
总结
- 慢慢的将各种 B E R T BERT BERT代码,全部 将各种代码,啥的偶跑完整都行啦的理由与打算,慢慢的将代码啥的全部都跑完整都行啦的理由与打算。