2024年从零学习AI和深度学习Transformer的路线图（非常详细）零基础入门到精通，收藏这一篇就够了

最新推荐文章于 2025-05-10 15:48:40 发布

程序员_大白

最新推荐文章于 2025-05-10 15:48:40 发布

阅读量3.5k

点赞数 26

分类专栏：程序员计算机互联网文章标签：人工智能深度学习学习

本文链接：https://blog.csdn.net/Python_0011/article/details/139622399

版权

程序员同时被 3 个专栏收录

1193 篇文章

订阅专栏

计算机

1189 篇文章

订阅专栏

互联网

961 篇文章

订阅专栏

2024 年学习 AI 路线图

最近AI大热，相关的研究层出不穷。

你想学习AI吗？但您不知道如何或从哪里开始？

人工智能和深度学习是发展的趋势：

Science 2023封面论文：ChatGPT缩小了人们在写作能力上的差距
Nature子刊Nature Machine Intelligence也已经上线近三年了，每年接收文章不到100篇，影响因子达到16.65，表示着Nature对人工智能方法的认可。
2023年下半年，华为、英伟达、谷歌的天气系统预报大模型展现了强大的实力和统治力…

然而对于普遍的非计算机专业的朋友来说，这些技术变得越来越难，越来越不好掌握了！以前我们还能说“站在巨人的肩膀上”，现在回过头来看，人工智能发展得太快，巨人的肩膀也站不住了！

为了逃离铺天盖地的代码copy，你必须亲自动手，从头开始编写算法，实现论文，并使用人工智能解决问题来完成有趣的项目。

写在前面

首先是代码，然后是理论。建议读者先看代码，后学理论~

我出于需要还是喜欢学习？

如果我要解决某件问题，我会广泛获取所需的信息、研究、理解它，然后采取行动。

例如，我的目标是复现最新的模型（如盘古模型），这涉及到从头开始编写 Transformer 代码以及在 GPU 上微调的技能。我现在做不到这一点，因为在我的知识，我的目标是填补这些空白。

或者你以 NLP 为重点；如果您正在寻找其他人工智能应用，例如计算机视觉或强化学习，可以在公众号下面发表评论或私信我，我会给你一些建议。

另外建议读者定期查看一些相关Kaggle竞赛，这里有下游任务的最新模型与得分；也建议读者注册X账号（Twitter），上面一些深度学习大牛会发布最新资讯；或者关注一些优质公众号。

数学基础
工具
Python
Pytorch
机器学习
模型评估、算法学习
从头开始编写第一个程序
使用Pytorch和Scikit-Learn
深度学习
一本"鱼书"入门深度学习
计算机视觉
NLP
Transformer
多做竞赛
大模型
从零开始写Transformer
从零实施BERT和Transformer
深度了解Transformer相关模型
模型微调

数学基础

机器学习在很大程度上依赖于数学的三大支柱：线性代数、微积分、概率和统计学。每个都在使算法有效运行方面发挥着独特的作用。

**线性代数：**用于数据表示和操作的数学工具包，其中矩阵和向量构成算法解释和处理信息的语言
**微积分：**机器学习优化的引擎，使算法能够通过理解梯度和变化率来学习和改进。
**概率与统计：**不确定性下决策的基础，允许算法预测结果并通过随机性和可变性模型从数据中学习。

一般而言，大学学到的高数足够应对了，尤其是考研生。

额外推荐一本线性代数书：Introduction to Linear algebra [Introduction to Linear Algebra by Gilbert Strang.pdf](books/Introduction to Linear Algebra by Gilbert Strang.pdf)

麻省理工学院英文原版教材《线性代数导论》

工具

主要是Python和Pytorch

Python

初学者从这里开始：实用 Python 编程。（https://dabeaz-course.github.io/practical-python/Notes/Contents.html）

书籍的话看这两本：

igure	Name	Web/Book	Description
	蟒蛇书	Python编程：从入门到实践.pdf	Python编程入门必备
	Python Data Science Handbook	Python数据科学手册.pdf	Python数据科学手册（从Numpy到Sklearn）

如果您已经熟悉 Python，可以学习Python高级编程https://github.com/dabeaz-course/python-mastery?tab=readme-ov-file

Pytorch

建议学习Youtube的Aladdin Persson教程，非常系统，适合初学者，打开字幕几乎无门槛：

https://www.youtube.com/playlist?list=PLhhyoLH6IjfxeoooqP9rhU3HJIAVAJ3Vz

也可以学习官方的Pytorch示例：https://pytorch.org/examples/

书籍学习这一本：

image-20240427222333736

https://www.oreilly.com/library/view/programming-pytorch-for/9781492045342/

机器学习

一个100 页的机器学习书籍，入门读着玩，顺便学英语。https://themlbook.com/

再学习这个存储库，图文并茂，代码丰富，初学者友好~https://github.com/eriklindernoren/ML-From-Scratch

从零开始机器学习

这个存储库也很棒！https://github.com/trekhleb/homemade-machine-learning

亲身体验数据和模型，这里有一些优秀的资源：

使用 PyTorch 和 Scikit-Learn 进行机器学习（代码）https://github.com/rasbt/machine-learning-book
[1811.12808]机器学习中的模型评估、模型选择和算法选择 https://arxiv.org/abs/1811.12808
机器学习入门面试书·MLIB https://huyenchip.com/ml-interviews-book/

使用Pytorch机器学习书籍

深度学习

用一本“鱼书”快速入门，可以看着玩~

Figure	Name	Web/Book	Description
	Deep Learning From Scratch	《深度学习入门：基于Python的理论与实现》高清中文版.pdf	鱼书，深度学习入门必备

全面的课程：

François Fleuret的UNIGE 14x050 — 深度学习。（每一章都有ppt和免费视频）https://fleuret.org/dlc/

深度学习课程

深入研究深度学习（包含 PyTorch、NumPy/MXNet、JAX 和 TensorFlow 中的代码示例）https://d2l.ai/index.html

Dive into Deep Learning

在手机上阅读**《深度学习小册子》**https://fleuret.org/francois/lbdl.html

可以打印出来随身看

深度学习小册子

自然语言处理

斯坦福大学的另一门精彩课程，CS 224N |深度学习自然语言处理 https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1234/

youtube的优质免费NLP教程：NLP课程 https://huggingface.co/learn/nlp-course/chapter1/1

使用 Transformers 进行自然语言处理图书：使用 Transformers 进行自然语言处理图书 https://transformersbook.com/

大模型

大语言模型

首先，观看 Andrej 的 [ 1 小时演讲] 大型语言模型简介。https://www.youtube.com/watch?v=zjkBMFhNj_g

然后观看“神经网络：从入门到精通它从从头开始解释和编码反向传播开始，到从头开始编写 GPT 结束。

神经网络：从零到精通作者：Andrej Karpathy https://karpathy.ai/zero-to-hero.html

从头开始编写Transformer。

阅读Transformer 系列 2.0 版 | Lil’Log 的概述。https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/

从头开始学习。

论文

Attention is all you need https://arxiv.org/abs/1706.03762
图解Transformer http://jalammar.github.io/illustrated-transformer/
哈佛大学的带注释的Transformer http://nlp.seas.harvard.edu/annotated-transformer/
像Transformer一样思考 https://srush.github.io/raspy/

博客

从头开始创建 Transformer — 第一部分：注意力机制（第 2 部分）（代码）https://benjaminwarner.dev/2023/07/01/attention-mechanism
从头开始理解和编码大型语言模型的自注意力机制作者：Sebastian Raschka 博士 https://sebastianraschka.com/blog/2023/self-attention-from-scratch.html
从零开始的Transformer https://peterbloem.nl/blog/transformers

视频

在 PyTorch 上从头开始编写 Transformer 代码，并提供完整的解释、训练和推理 https://www.youtube.com/watch?v=ISNdQcPhsts&t=7449s
NLP：从头开始实施 BERT 和 Transformers https://www.youtube.com/watch?v=EPa98fyxZ-s&list=PLdM8d_MWyPjV2vKl7Y2jnIIBRu522tiZc&index=9

您现在可以从头开始编写Transformer代码。但还有更多。

一些不错的博客

梯度下降到疯狂——从头开始建立神经网络 https://bclarkson-code.github.io/posts/llm-from-scratch-scalar-autograd/post.html
Transformer插图 — Jay Alammar https://jalammar.github.io/illustrated-transformer/
关于注意力和Transformer的一些直觉作者：Eugene Yan https://eugeneyan.com/writing/attention/?curius=1935
Llama 从头开始（或者如何不哭地实现一篇论文）|布莱恩·北野 https://blog.briankitano.com/llama-from-scratch/
改进 LoRA：从头开始实现权重分解低秩适应 (DoRA) https://magazine.sebastianraschka.com/p/lora-and-dora-from-scratch

观看精彩视频

深入视频解释论文，展示了代码。

LoRA：大型语言模型的低阶适应 - 直观解释 + 从头开始的 PyTorch 代码 https://www.youtube.com/watch?v=PXWYUTMt-AU
Mistral / Mixtral 解释：滑动窗口注意力、专家稀疏混合、滚动缓冲区 https://www.youtube.com/watch?v=UiX8K-xBUpE
Attention is all you need (Transformer) — 模型解释（包括数学）、推理和训练 https://www.youtube.com/watch?v=bCz4OMemCcA
LLaMA 解释：KV-Cache、旋转位置嵌入、RMS Norm、分组查询注意力、SwiGLU https://www.youtube.com/watch?v=Mn_9W1nCFLo
检索增强生成 (RAG) 解释：嵌入、句子 BERT、向量数据库 (HNSW) https://www.youtube.com/watch?v=rhZgXNdhWDY

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享