1. NLP发展重要时间线
聊聊NLP那些大事儿,预训练大模型大势所趋。
时间线
- Transformer, 2017.6
- ELMo,2018.3
- OpenAI GPT-1, 2018.6
- BERT,Google, 2018.10
- OpenAI GPT-2,15亿参数,2019.1
- Transformer XL,2019.1
- XLNET, 2019.6
- RoBERTa,Facebook,2019.7
- Megatron-LM,83亿参数,NIVIDA,2019.8
- ALBERT, Google,2019.9
- T5(Text-to-Text Transfer Transformer),110亿参数,Google,2019.10
- ReFormer, 2020.1
- Turing-NLG,172亿参数,Microsoft, 2020.2
- ELECTRA, 2020.3
- OpenAI GPT-3, 1750亿参数,2020.5
- Switch Transformer,1.6万亿参数,Google, 2021.1.11
- 达摩院PLUG,270亿,阿里巴巴,2021.4
- 悟道2.0,1.75万亿参数,北京智源研究院,2021.6
- Megatron-Turing-NLG,5300亿参数,Microsoft & NIVIDA, 2021.10
- 达摩院M6,10万亿,阿里巴巴,2021.11
- “封神榜”大模型,35亿参数,粤港澳大湾区数字经济研究院(简称“IDEA”),2021.11
- 百度文心(ERNIE 3.0 Titan),2600亿参数,百度,2021.12
2. NLP以BERT发展的延伸
Transformer:在seq2seq+Attention模型的基础上把循环神经网络的部分给去掉了,取而代之的也是attention结构。
BERT:双向Transformer+微调
BERT与模型压缩:
- BERT与模型蒸馏:PKD和DistillBERT
- ALBERT:轻量级BERT
- TinyBERT:模型蒸馏的全方位应用
- MobileBERT:BERT在手机上运行,Pixel4只要40ms
BERT变种:
- RoBERTa:BERT调优,改变预训练方法(Dynamic Masking, Without NSP,更大的mini-batch,更多数据,更长训练时间)
- ELECTRA:判别器还是生成器,对抗生成网络
- Transformer优化:解决Transformer序列长度受限制问题,扩展输入长度Transformer XL
- Transformer优化:解决Transformer模型随长度增加,Attention部分占用内存和计算呈平方比增加的问题。使用Sparse Attention,如Reformer使用局部敏感哈希LSH、可逆残差和分块计算,把深度长序列Transformer训练的计算量和内存使用量降到了单机可训练的水平。
- XLM:跨语言的BERT
3. NLP领域顶会
自然语言处理领域:ACL, EMMLP, NAACL, COLING
机器学习/深度学习领域:ICML, NIPS, UAI, ALSTATS, ICLR
数据挖掘领域:SIGIR, KDD(应用), WSDM, SDM(理论), WWW, CIKM, SIGMOD(数据管理)
人工智能领域:IJCAI, AAAI
https://www.ccf.org.cn/xspj/rgzn/
https://dblp.uni-trier.de
国内NLP/CL学术会议:NLP&CC,CCL, YSSNLP, CCIR, CWMT
科技媒体:机器之心、雷锋网/AI科技评论、PaperWeekly、DeepTech、新智元。
会议或期刊排名:参考CCF列表
https://www.ccf.org.cn/Academic_Evaluation/By_category/
新手关注,查看会议路径:
1) Tutorial Session
2) Workshop
3) Paper Session
去www.arxiv.org上订阅某个领域,收取相关最新的邮件。
欢迎各位关注我的个人公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
