![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
预训练模型
文章平均质量分 92
大雄没有叮当猫
好好学习,天天向上
展开
-
NLP17:预训练模型之Albert
公众号:数据挖掘与机器学习笔记1. 摘要在预训练自然语言表示时,增加模型大小通常会导致下游任务的性能提高。但是,由于 GPU/TPU 内存限制和更长的训练时间,在某些时候,进一步增大模型变得更加困难。为了解决这个问题,我们提出了两种参数削减技术来降低内存消耗以及加快模型训练速度。实验结果表明我们提出的方法比原始BERT模型的扩展性更好。使用自监督损失来建模句子间的连贯性,有助于下游任务的处理。在GLUE、RACE和SQuAD等benchmarks上取得了SOTA,而且与BERT-large相比拥有更少的原创 2021-01-09 17:50:25 · 1947 阅读 · 0 评论 -
NLP12:预训练模型之ELMO
公众号:数据挖掘与机器学习笔记1.简介ELMO是一种深层的上下文单词表示模型,它可以同时建模:(1) 单词使用的复杂特征(例如语法和语义),也就是能够学习到词汇用法的复杂性(2)这些用法如何在语言上下文之间变化(即建模多义性)词向量是深度双向语言模型(deep bidirectional language model,BILM)内部状态的可学习函数,这些双向语言模型在大型文本语料库上进行了预训练。可以将这些预训练的词向量添加到现有模型中,能够显著改善NLP问题(问答、文本蕴含、情感分析等)的解决效原创 2020-10-25 22:14:40 · 1399 阅读 · 1 评论