BERT, RoBERTa, DistilBERT, XLNet,Albert
BERT是一个双向Transformer,用于对大量未标记的文本数据进行预训练,以学习可用于微调特定机器学习任务的语言表示。尽管BERT在一些艰巨的任务上胜过一些NLP的最新技术,但其性能的提高主要归因于:双向的Transformer,基于大量训练数据的新颖的Masked Language Model和Next Structure Prediction预训练任务。当然同样重要的是谷歌强大的算力加持...
原创
2020-04-09 12:08:16 ·
4463 阅读 ·
0 评论