自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 NLP领域中的预训练模型杂谈

近期NLP领域发生了很多大事,基本都离不开**Pretrain**这个字眼,比如大名鼎鼎的BERT、GPT等,笔者也是在近期撸了 **7篇** 近一年内相关的论文及它们的源码,这里就是对这7篇论文进行一个大总结,用更有条理的方式理清这些模型的关系,以期能加深印象,真正掌握这些论文背后要强调的思路~

2019-04-25 20:01:53 2487

原创 XLM解读(论文 + PyTorch源码)

这篇论文是Facebook在BERT的基础上发展出来的Cross-Lingual版本,即多语的。1. 引入了一个新的无监督方法,用于训练多语的表征,并且提出两个单语的预训练LM目标2. 提出了一种新的有监督方法,使用平行语料,来增强多语预训练的表现3. 在跨语言分类、有/无监督机器翻译任务上,达到了新的SoTA4. 对于resource比较少的语言,用这种预训练方式很有帮助5. 重点来了!有源码和预训练模型

2019-04-25 17:38:08 8510 3

原创 MT-DNN解读(论文 + PyTorch源码)

前一段时间,看到了微软发布了用于学习通用语言嵌入的多任务深度神经网络模型MT-DNN,可谓是紧随BERT之后,结合他们之前的MTL工作以及BERT的优势,在10项NLU任务上的表现都超过了BERT。

2019-04-25 15:59:07 7007 3

原创 BERT解读(论文 + TensorFlow源码)

BERT,全称Bidirectional Encoder Representations from Transformers,是Google在18年11月份推出的一个NLP预训练的模型,它一出现,就横扫各大NLP任务的SoTA,并且Google还良心的放出了源码和预训练模型,可以说是像ImageNet那种里程碑式的突破。

2019-04-25 13:20:40 8633 1

原创 GPT-2解读(论文 + TensorFlow实现)

GPT-2是对GPT的一个升级,并且更着重于将思路放在为何pretrain是有用的上面,认为LM本身是一个Multi-task Learner,并且大力用ZSL实验来佐证这个思路。

2019-04-24 17:39:54 18381 6

原创 GPT解读(论文 + TensorFlow实现)

GPT这篇论文,我还是在GPT-2出来了之后,被它能续写红楼梦这一事件而震惊,所以才统一看了一下这两篇论文。这俩都是OpenAI出的,也是用pretrain+fintune的套路进行处理。

2019-04-24 16:38:31 9682 2

原创 ULMFiT解读(论文 + PyTorch源码)

可能是笔者孤陋寡闻,感觉这篇论文没有BERT、ELMo这么火,笔者也是在搜索相关话题的文章的时候,看到大家都会带着ULMFiT进行分析,因此也就去研究了一下。总体来说,这篇论文也是pretrain+finetune的思路,探索的比较浅,主要用来做文本分类,而且trick相对来说也比较多。但整体的思路比较值得借鉴。

2019-04-24 15:04:36 6072 6

原创 《NEURAL READING COMPREHENSION AND BEYOND》解读(陈丹琦博士论文)

之前在听standford的cs224n自然语言处理课程的时候,就有一段是请陈丹琦来这边讲她最近的一些工作,我记得还是在embedding上的进展。听的时候,就觉得像是一个中国小姐姐,后面在这篇爆款博士论文出来的时候,就特意去查了一下,果然是大神!陈丹琦的博士论文是关于机器阅读理解的,这是近期的一个研究热点,与笔者的专业也比较相关,因此就拜读了一下,并将其主要内容进行梳理。

2019-04-24 11:08:05 1488 2

原创 ELMo解读(论文 + PyTorch源码)

ELMo出自Allen研究所在NAACL会议上发表的一篇论文《Deep contextualized word representations》,从论文名称看,应该是提出了一个新的词表征的方法。据他们自己的介绍:ELMo是一个深度带上下文的词表征模型,能同时建模(1)单词使用的复杂特征(例如,语法和语义);(2)这些特征在上下文中会有何变化(如歧义等)。这些词向量从深度双向语言模型(biLM)的隐层状态中衍生出来,biLM是在大规模的语料上面Pretrain的。它们可以灵活轻松地加入到现有的模型中...

2019-04-11 16:45:15 15866 19

原创 Transformer解读(论文 + PyTorch源码)

2017年6月,Google发布了一篇论文《Attention is All You Need》,提出了Transformer模型。正如论文的名称所说,其旨在全部利用Attention方式来替代掉RNN的循环机制,从而能并行化计算并实现提速。同时,在特定的任务上,这个模型也超过了当时Google神经机器翻译模型。笔者主要阅读了论文及两篇博客(链接见文末的传送门),这里主要是对这些内容做一个整合和提炼~

2019-04-08 20:22:17 34646 6

原创 Transformer-XL解读(论文 + PyTorch源码)

CMU联合Google Brain在2019年1月推出的一篇新论文《Transformer-XL:Attentive Language Models beyond a Fixed-Length Context》同时结合了RNN序列建模和Transformer自注意力机制的优点,在输入数据的每个段上使用Transformer的注意力模块,并使用循环机制来学习连续段之间的依赖关系。Transformer-XL在多种语言建模数据集上实现了SoTA的效果,并且还有完整的源码!

2019-04-07 23:22:03 31806 29

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除