选读是深造必读!!!
前言
最近跟国内大模型头部初创和大厂的预训练组与Alignment(强化学习)组聊了许多,感受颇深。为了助力大家,尤其是那些希望在未来希望从事或者感兴趣的小伙伴们,能够更迅速地掌握深度学习与大模型的最新进展,在这里跟大家分享一条学习路径。希望小伙伴们可以在学习完或者看完之后可以对大模型的理论与实践有有一个全面而深刻的认识。在我们follow最新前沿工作的同时,可以根据自己的思考或者过往深度学习的经验,提出独到的见解。
下面是学习路径的大致outline:
- Transformers
- Scaling Laws与大规模训练
- 强化学习基础
- Alignment与RLHF
- 。。。
这一份学习路径面向于已经对深度学习有一定了解的同学们,对独自学习的个人来说应该是具有一定的挑战性的。希望大家能在评论区积极交流讨论,我也会根据大家的兴趣不断完善内容。
大家看过来了,直接上强度!预估时间20~25个小时。
必读
- Attention Is All You Need - 通读全文,但是重点关注Section 3。Section 3重点介绍了Transformer的网络结构。这篇文章是从Translation的角度介绍了encoder-decoder结构。但是目前在LLM当中我们主要使用decoder-only的结构
- The Illustrated Transformer - 如果直接阅读上述Paper存在难点,请搜索这个blog,形象通俗的解释了Transformer的具体结构
选读
- GPT-3 - GPT模型的基石文章,175B参数量的decoder-only结构的Transformer模型,并且取得了非常impressive的meta-learning capabilities
- The Transformer Family - Lilian Weng的Blog,她是OpenAI的Head of some groups。这篇blog介绍了主流的Transformer结构变种,包括Transformer-XL,Image Transformer,Sparse Transformer,Reformer and Universal Transformer。让大家对Transformer的发展全貌有更详细的了解
- T5 (Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer arXiv:1910.10683) - 系统的比较了各种Transformer结构以及pre-training优化目标之间的性能。
- Mixture-of-Experts - 重点关注Section 2。这是一种parameter sparsity的方法,可以帮助LLM极大程度的提升training efficiency。据说GPT-4也使用了这种方法。
Show me the code
搭建一个decode-only Transformer模型,OpenAI的首席科学家Andrej已经帮大家打了一个样,加油加油~
- 首先完成positional embedding function
- 计算Attention,完成一个计算Attention Function,给定(Q,K,V)
- 完成masking function
- 组建Attention block
- 搭建完整的decode-only transformer模型
Remark:
- 如果发现难度有点小大。
- 请搜索Andrej Karpathy的Let’s Build GPT from Scratch in code spelled out教程。
- 哈佛大学Attention tutorial:The Annotated Transformer
- 借助以上信息,尝试完成莎士比亚文集的训练,https://www.gutenberg.org/files/100/100-0.txt