LLM 编码的过程

最新推荐文章于 2024-10-25 20:26:17 发布

Overman..

最新推荐文章于 2024-10-25 20:26:17 发布

阅读量665

点赞数 9

分类专栏： LLM 文章标签： LLM token tokenization

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36441033/article/details/138068052

版权

LLM 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了LLM（大型语言模型）的编码过程，包括Tokenization、词汇创建、标记索引、嵌入层、位置编码、段编码（可选）和编码器输入等步骤，阐述了如何将文本转换为神经网络可理解的数字表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

句子》句子预处理（把太长的句子截短，在句子中添加首尾标识符）》分词》编码（词典 vocabulary）

tokenizer.encode 参与了 step 1、2、3
transformer 参与了 step 4、5、6、7

LLM 编码的过程

LLM（大型语言模型）编码是将输入文本转换为神经网络可以处理的数字表示的过程。下面是编码过程的步骤概述：

1. Tokenization：
输入文本被分解成单个词或标记。这是使用标记器完成的，它将文本分解成子词（小单元词）或词块。例如，单词“unbreakable”可能被标记化为“un##break##able”。

2. 词汇创建：
通过从训练数据集中收集所有唯一标记来创建词汇。这个词汇用于将每个标记映射到唯一的整数索引。

3. 标记索引：
输入文本中的每个标记被替换为词汇中的对应整数索引。这创建了一个整数序列，其中每个整数代表一个标记。

4. 嵌入层：
整数序列被输入到嵌入层中，该层将每个整数转换为高维空间中的密集向量（嵌入）。这些嵌入是在训练过程中学习的，并捕捉每个标记的语义含义。

5. 位置编码：
为了保留标记的顺序，位置编码被添加到嵌入中。这涉及到将固定向量添加到每个嵌入中，其中向量是标记在序列中的位置的函数。

6. 段编码（可选）：
如果输入文本由多个段（例如句子或段落）组成，段编码将被用于区分它们。这涉及到将段特定的向量添加到嵌入中。

7. 编码器输入：
最终的编码输入是一个向量序列，其中每个向量代表输入文本中的一个标记。这个序列被输入到编码器中，通常是一个基于 transformer 的架构。

下面是一个简单的示例来说明编码过程：

输入文本：“The quick brown fox jumps over the lazy dog.”

标记化：[“The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”]

词汇：{“The”: 0, “quick”: 1, “brown”: 2,…, “dog”: 8}

标记索引：[0, 1, 2, 3, 4, 5, 0, 6, 8]

嵌入层：将每个整数索引转换为密集向量（例如使用 Word2Vec 或 GloVe）。

位置编码：将固定向量添加到每个嵌入中，基于其在序列中的位置。

段编码（可选）：如果输入文本由多个段组成，将段特定的向量添加到每个嵌入中。

编码器输入：一个向量序列，其中每个向量代表输入文本中的一个标记。

这个编码输入然后被输入到 LLM 的编码器中，该编码器处理向量序列以生成输入文本的上下文表示。

博客等级

码龄9年

18
原创

454
点赞

317
收藏

334
粉丝

关注

私信

热门文章

分类专栏

tomcat 1篇
LLM 4篇
springcloud 2篇
Alibaba Nacos 1篇
架构 1篇
springboot 8篇
spring 1篇
设计模式 1篇

最新评论

深入剖析 Java HashMap：从数组、链表到红黑树，探秘高效数据结构背后的设计理念
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
深入剖析 Java HashMap：从数组、链表到红黑树，探秘高效数据结构背后的设计理念
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
LLM 中的 vocabulary 和 embedding vector
CSDN-Ada助手: 恭喜您发布第14篇博客！文章关于LLM中的vocabulary和embedding vector非常有深度，对于理解这一主题有很大帮助。希望您能继续保持创作的热情和耐心，不断深挖这一领域的知识，为读者带来更多有价值的内容。建议您在下一篇博客中可以结合实际案例或者个人经验，更好地展现您的见解和观点。期待您的下一篇作品！
一篇文章读懂@SpringBootApplication
Overman..: 感谢感谢，未来会继续更新
一篇文章读懂@SpringBootApplication
CSDN-Ada助手: 恭喜您写了这篇关于@SpringBootApplication的博客，解释得非常清晰易懂！继续保持创作的热情和努力，希望您可以继续分享更多关于Spring Boot的知识。或许下一步可以深入探讨@SpringBootApplication的各种注解及其使用场景，让读者更加全面地了解这个注解的功能。期待您的下一篇文章！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。