大模型机器学习工程师指南(一)- 如何快速精通大模型Transformer

选读是深造必读!!!

前言

最近跟国内大模型头部初创和大厂的预训练组与Alignment(强化学习)组聊了许多,感受颇深。为了助力大家,尤其是那些希望在未来希望从事或者感兴趣的小伙伴们,能够更迅速地掌握深度学习与大模型的最新进展,在这里跟大家分享一条学习路径。希望小伙伴们可以在学习完或者看完之后可以对大模型的理论与实践有有一个全面而深刻的认识。在我们follow最新前沿工作的同时,可以根据自己的思考或者过往深度学习的经验,提出独到的见解。

下面是学习路径的大致outline:

  • Transformers
  • Scaling Laws与大规模训练
  • 强化学习基础
  • Alignment与RLHF
  • 。。。

这一份学习路径面向于已经对深度学习有一定了解的同学们,对独自学习的个人来说应该是具有一定的挑战性的。希望大家能在评论区积极交流讨论,我也会根据大家的兴趣不断完善内容。

大家看过来了,直接上强度!预估时间20~25个小时

必读

  • Attention Is All You Need - 通读全文,但是重点关注Section 3。Section 3重点介绍了Transformer的网络结构。这篇文章是从Translation的角度介绍了encoder-decoder结构。但是目前在LLM当中我们主要使用decoder-only的结构
  • The Illustrated Transformer - 如果直接阅读上述Paper存在难点,请搜索这个blog,形象通俗的解释了Transformer的具体结构

选读

  • GPT-3 - GPT模型的基石文章,175B参数量的decoder-only结构的Transformer模型,并且取得了非常impressive的meta-learning capabilities
  • The Transformer Family - Lilian Weng的Blog,她是OpenAI的Head of some groups。这篇blog介绍了主流的Transformer结构变种,包括Transformer-XL,Image Transformer,Sparse Transformer,Reformer and Universal Transformer。让大家对Transformer的发展全貌有更详细的了解
  • T5 (Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer arXiv:1910.10683) - 系统的比较了各种Transformer结构以及pre-training优化目标之间的性能。
  • Mixture-of-Experts - 重点关注Section 2。这是一种parameter sparsity的方法,可以帮助LLM极大程度的提升training efficiency。据说GPT-4也使用了这种方法。

Show me the code

搭建一个decode-only Transformer模型,OpenAI的首席科学家Andrej已经帮大家打了一个样,加油加油~

  1. 首先完成positional embedding function
  2. 计算Attention,完成一个计算Attention Function,给定(Q,K,V)
  3. 完成masking function
  4. 组建Attention block
  5. 搭建完整的decode-only transformer模型

Remark:

  • 如果发现难度有点小大。
    • 请搜索Andrej Karpathy的Let’s Build GPT from Scratch in code spelled out教程。
    • 哈佛大学Attention tutorial:The Annotated Transformer
  • 借助以上信息,尝试完成莎士比亚文集的训练,https://www.gutenberg.org/files/100/100-0.txt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值