【ChatGPT核心原理实战】手动求解 Transformer：分步数学示例 | Solving Transformer by Hand: A Step-by-Step Math Example

置顶光剑书架上的书

已于 2024-01-05 17:03:01 修改

阅读量2.9k

点赞数 29

分类专栏： ChatGPT ChatGPT开发实战代码案例详解文章标签： transformer 深度学习人工智能语言模型 AI LLM chatgpt

于 2023-12-22 02:23:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/universsky2015/article/details/135143515

版权

ChatGPT 同时被 2 个专栏收录

2263 篇文章 233 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

ChatGPT开发实战代码案例详解

1840 篇文章 7 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文提供了一个详细的手动求解Transformer的分步数学示例，旨在通过简单数据集和矩阵乘法解释Transformer的编码器和解码器部分。作者首先介绍了Transformer架构的重要性，然后逐步讲解了数据集的定义、词汇量计算、编码和嵌入、位置编码等关键步骤，以及在实际应用中如GPT-3的用例和局限性。

摘要由CSDN通过智能技术生成

目录

手动求解 Transformer：分步数学示例

Understanding Transformers: A Step-by-Step Math Example — Part 1了解 Transformer：分步数学示例 — 第 1 部分

I understand that the transformer architecture may seem scary, and you might have encountered various explanations on…我知道变压器架构可能看起来很可怕，并且您可能遇到过关于……的各种解释。

This blog is incomplete, here is the complete version of it:该博客不完整，以下是完整版本：

Understanding Transformers from Start to End — A Step-by-Step Math Example从头到尾理解 Transformer — 一个逐步的数学示例

We will be using a simple dataset and performing numerous matrix multiplications to solve the encoder and decoder parts…我们将使用一个简单的数据集并执行大量矩阵乘法来解决编码器和解码器部分......

Inputs and Positional Encoding输入和位置编码

Step 1 (Defining the data)步骤 1（定义数据）

Step 2 (Finding the Vocab Size)第 2 步（计算词汇量）

Step 3 (Encoding and Embedding)步骤 3（编码和嵌入）

Step 4 (Positional Embedding)步骤 4（位置嵌入）

Encoder 编码器

Step 1 (Performing Single Head Attention)第 1 步（执行单头注意力）

Table of Contents 目录

Step 1 — Defining our Dataset第 1 步 - 定义我们的数据集

Step 2— Finding Vocab Size第 2 步 — 查找词汇量

Step 3 — Encoding 第 3 步 — 编码

Step 4 — Calculating Embedding第 4 步 — 计算嵌入

Step 5 — Calculating Positional Embedding第 5 步 — 计算位置嵌入

Step 6 — Concatenating Positional and Word Embeddings第 6 步 — 连接位置嵌入和词嵌入

Step 7 — Multi Head Attention第 7 步 — 多头注意力

Step 8 — Adding and Normalizing第 8 步 — 添加和规范化

Step 9 — Feed Forward Network第 9 步——前馈网络

Step 10 — Adding and Normalizing Again第 10 步 — 再次添加并标准化

Step 11 — Decoder Part第11步——解码器部分

Step 12 — Understanding Mask Multi Head Attention第 12 步 — 了解 Mask Multi Head Attention

Let’s do a simplified calculation:我们来做一个简单的计算：

Step 13 — Calculating the Predicted Word第 13 步 — 计算预测词

Important Points 要点

Conclusion 结论

Transformer Architecture explainedTransformer 架构解释

Tokenization 代币化

Embedding 嵌入

Positional encoding 位置编码

Transformer block 变压器块

Attention 注意力

The Softmax Layer Softmax 层

Post Training 岗位培训

How GPT3 Works - Visualizations and Animations

The GPT-3 Architecture, on a Napkin餐巾纸上的 GPT-3 架构

Original Diagrams 原始图表

In / Out 进出

Encoding 编码

Embedding 嵌入

Positional Encoding 位置编码

Attention (Simplified) 注意（简体）

Multi-Head Attention 多头注意力

Feed Forward 前馈

Add & Norm 添加和规范

Decoding 解码

Full Architecture 完整架构

References 参考

OpenAI GPT-3: Understanding the ArchitectureOpenAI GPT-3：了解架构

Introduction 介绍

What are Language Models?什么是语言模型？

How does language modeling work?语言建模如何工作？

OpenAI GPT-3 ArchitectureOpenAI GPT-3 架构

Why GPT-3 is so powerful?为什么GPT-3如此强大？

Use cases of GPT-3 GPT-3 的用例

Writing and translation 写作和翻译

Generating code 生成代码

Building machine learning models/code构建机器学习模型/代码

How Can We Get Our Hands on the Model?我们如何获得模型？

Limitations of OpenAI GPT-3OpenAI GPT-3 的局限性

Future of GPT-3 GPT-3 的未来

Conclusion 结论

References 参考

手动求解 Transformer：分步数学示例

I have already written a detailed blog on how transformers work using a very small sample of the dataset, which will be my best blog ever because it has elevated my profile and given me the motivation to write more. However, that blog is incomplete as it only covers 20% of the transformer architecture and contains numerous calculation er

了解本专栏

超级会员免费看

光剑书架上的书

关注

29
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
6
评论
【ChatGPT核心原理实战】手动求解 Transformer：分步数学示例 | Solving Transformer by Hand: A Step-by-Step Math Example

手动求解 Transformer：分步数学示例Understanding Transformers: A Step-by-Step Math Example — Part 1了解 Transformer：分步数学示例 — 第 1 部分I understand that the transformer architecture may seem scary, and you might have encountered various explanations on…我知道变压器架构可能看起来很可怕，并且
复制链接

扫一扫

专栏目录

光剑书架上的书

CSDN认证博客专家 CSDN认证企业博客

码龄9年

人工智能领域优质创作者

10万+: 原创

343: 周排名

-: 总排名

12528万+: 访问

: 等级

228万+: 积分

5万+: 粉丝

110万+: 获赞

12万+: 评论

110万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

【光剑书架上的书】书评推荐《机器人的信条》约翰逊等
2401_87166618: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【光剑书架上的书】书评推荐《计算机网络》James F. Kurose
2401_87166598: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【光剑书架上的书】书评推荐《技术与生活世界》唐•伊德
2401_87166582: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
十年技术进阶路:让我明白了三件要事。关于如何做好技术 Team Leader？如何提升管理业务技术水平?
光剑书架上的书: 三要素：带着明确的输出目的，才会真正地促进自己的思考。蜻蜓点水、泛泛而谈，是无法让自己形成对事物的独特见解和具象化输出，长期如此，并无良益。只有尽可能通过深度思考过后的产出，才能够形成属于自己真正的经验。知识的点与点之间建立联系，构成明晰的知识体系，经验与经验则形成了自己独有的思维模式。锲而舍之，朽木不折；锲而不舍，金石可镂。 ——荀况一切的学习，前期都是从模仿开始的。几个层面：破局：一个是我希望打破 35 岁魔咒，这本质上是想平稳快速度过职业发展瓶颈期；觅友：希望结识到拥有同样目标的同行，深度交流，构建技术圈人脉资源网；动力：从中获取更多与工作不一样的成就感。有了强驱动力，也会使我在分享这条路上变得更坚定。 ———————————————— 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/universsky2015/article/details/127594649
Raft 协议原理深度解析与Go源代码实现
光剑书架上的书: 节点状态： RaftNode 结构体中的 state 字段表示节点的当前状态，可以是 Follower、Candidate 或 Leader。选举定时器： runElectionTimer() 方法启动一个定时器，用于触发选举。发起选举： startElection() 方法将节点转换为候选者状态，并向其他节点发送请求投票消息。请求投票： requestVote() 方法处理来自其他节点的请求投票消息。成为领导者： becomeLeader() 方法将节点转换为领导者状态，并启动心跳定时器。发送心跳消息： sendHeartbeats() 方法定期向其他节点发送心跳消息。追加日志条目： appendEntries() 方法处理来自领导者节点的追加日志条目请求。 ———————————————— 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/universsky2015/article/details/142154529

大家在看

最新文章

2024

2023年48315篇

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

光剑书架上的书 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。