![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
预训练模型
小小鸟要高飞
小小学生,埋头科研,岂不快哉。
展开
-
预训练模型(X)---- 预训练模型现状及分析
预训练模型的现状及分析预训练方法发展基于词嵌入的预训练方法基于语言模型的预训练方法首先通过上图大家可以清楚的了解到预训练模型之间的前世今生。前面已经介绍了很多预训练模型,本文就前面的内容做一个总结分析。预训练的方法最初是在图像领域提出的,达到了良好的效果,后来被应用到自然语言处理。预训练一般分为两步,首先用某个较大的数据集训练好模型(这种模型往往比较大,训练需要大量的内存资源),使模型训练到...原创 2019-11-04 14:06:54 · 3618 阅读 · 0 评论 -
预训练模型(8)---- T5: Text-To-Text Transfer Transformer
论文链接:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer代码链接:https://github.com/google-research/text-to-text-transfer-transformer其实在ELECTRA 之前我就看到了T5,这个模型可以用一个字来总结,那就...原创 2019-11-04 13:31:00 · 2529 阅读 · 0 评论 -
预训练模型(7)---- ELECTRA
最近预训练模型的更新真的是让人眼花缭乱,效果一个比一个好,简直堪称神仙打架,我等吃瓜群众只好坐在小板凳上看热闹,时不时的喊上一声“好”。最近到处都能看到ELECTRA的身影,据说可以吊打Bert,今天我们就来看看它到底是何方神圣。ELECTRA是斯坦福SAIL实验室Manning组的工作,是目前为止效果最好的预训练模型,不仅效果比以前的预训练模型好很多,而且还借鉴了GAN的思想,还用到了强化学习...原创 2019-11-04 12:18:12 · 3680 阅读 · 0 评论 -
预训练模型(6)---- MASS
MASS: Masked Sequence to Sequence Pre-training for Language Generation摘要引言模型结构统一的预训练框架(包含GPT和Bert)实验结果这是微软亚洲研究院在ICML2019的一篇文章,在NLP任务上超越了Bert、XLNet、XLM。不仅适用于有监督任务,还适用于无监督任务。而且框架结构非常灵活,可以根据自己的喜好随意调整,真的...原创 2019-10-10 14:15:51 · 4123 阅读 · 0 评论 -
预训练模型(5)---- SpanBERT&RoBERTa&ERNIE2
比较小众的预训练模型1. SpanBERT2. RoBERTa3. ERNIE2本文主要介绍一些比较小众的预训练模型,这些模型不像Bert、XLNet等那么有影响力,都是在这些模型的基础上做的相关改进工作,但是这些工作可以引导我们学会如何优化模型,对我们的学习以及科研都会有很大的帮助。首先是Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。1. SpanBERT论...原创 2019-10-03 16:03:29 · 2220 阅读 · 1 评论 -
预训练模型(2)---- Transformer-XL&GPT2&XLNet
预训练模型原创 2019-09-30 11:12:14 · 3325 阅读 · 0 评论 -
face - Cross-lingual Language Model Pretraining ---- XLM
神经机器翻译四原创 2019-09-28 22:58:58 · 3094 阅读 · 0 评论 -
预训练模型(1)---- ELMO&GPT&Bert
预训练模型原创 2019-09-30 11:08:11 · 2189 阅读 · 0 评论 -
预训练模型(4)---- ALBert
预训练模型原创 2019-09-30 11:16:02 · 8151 阅读 · 0 评论 -
预训练模型(3)---- XLNet
预训练模型(3)原创 2019-10-02 18:10:05 · 1267 阅读 · 1 评论