点击上方,选择星标或置顶,每天给你送干货!
阅读大概需要5分钟
跟随小博主,每天进步一丢丢
编辑:zenRRan
作者:brightmart
github:https://github.com/brightmart/albert_zh
albert_zh
海量中文语料上预训练ALBERT模型:参数更少,效果更好
Chinese version of ALBERT pre-trained model
ALBERT模型介绍
ALBERT模型是BERT的改进版,与最近其他State of the art的模型不同的是,这次是预训练小模型,效果更好、参数更少。
预训练小模型也能拿下13项NLP任务,ALBERT三大改造登顶GLUE基准
它对BERT进行了三个改造:
1)词嵌入向量参数的因式分解 Factorized embedding parameterization
O(V * H) to O(V * E + E * H)如以ALBert_xxlarge为例,V=30000, H=4096, E=128那么原先参数为V * H= 30000 * 4096 = 1.23亿个参数,现在则为V * E + E * H = 30000*128+128*4096 = 384万 + 52万 = 436万,词嵌入相关的参数变化前是变换后的28倍。
2)跨层参数共享 Cross-Layer Parameter Sharing
参数共享能显著减少参数。共享可以分为全连接层、注意力层的参数共享;注意力层的参数对效果的减弱影响小一点。
3)段落连续性任务 Inter-sentence coherence loss.
使用段落连续性任务。正例,使用从一个文档中连续的两个文本段落;负例,使用从一个文档中连续的两个文本段落,但位置调换了。避免使用原有的NSP任务,原有的任务包含隐含了预测主题这类过于简单的任务。We maintain that inter-sentence modeling is an important aspect of language understanding, but we propose a lossbased primarily on coherence. That is, for ALBERT, we use a sentence-order prediction (SOP) loss, which avoids topicprediction and instead focuses on modeling inter-sentence coherence. The SOP loss uses as positive examples thesame technique as BERT (two consecutive segments from the same document), and as negative examples the same twoconsecutive segments but with their order swapped. This forces the model to learn finer-grained distinctions aboutdiscourse-level coherence properties.
发布计划 Release Plan1、albert_base, 参数量12M, 层数12,10月5号
2、albert_large, 参数量18M, 层数24,10月13号
3、albert_xlarge, 参数量59M, 层数24,10月6号
4、albert_xxlarge, 参数量233M, 层数12,10月7号(效果最佳的模型)
训练语料40g中文语料,超过100亿汉字,包括多个百科、新闻、互动社区、小说、评论。
模型性能与对比模型性能与对比
模型参数和配置
Reference1、ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations
https://openreview.net/pdf?id=H1eA7AEtvS
2、预训练小模型也能拿下13项NLP任务,ALBERT三大改造登顶GLUE基准
http://baijiahao.baidu.com/s?id=1645712785366950083&wfr=spider&for=pc
3、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
https://arxiv.org/pdf/1810.04805.pdf
4、SpanBERT: Improving Pre-training by Representing and Predicting Spans
https://arxiv.org/abs/1907.10529
实在智能算法团队
作者介绍:
徐亮,实在智能算法专家,在深度学习、文本分类、意图识别、问答系统方面有非常深入的研究和创新,github top10最受欢迎的文本分类项目作者。
方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
推荐阅读:
【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文
【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing
【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译
【一分钟论文】Semi-supervised Sequence Learning半监督序列学习
【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing
详解Transition-based Dependency parser基于转移的依存句法解析器
经验 | 初入NLP领域的一些小建议
学术 | 如何写一篇合格的NLP论文
干货 | 那些高产的学者都是怎样工作的?
一个简单有效的联合模型
近年来NLP在法律领域的相关研究工作
让更多的人知道你“在看”