大语言模型LLM核心技术，通俗易懂！

最新推荐文章于 2025-02-25 11:26:29 发布

大模型猫叔

最新推荐文章于 2025-02-25 11:26:29 发布

阅读量1k

点赞数 31

文章标签：语言模型人工智能自然语言处理机器学习

本文链接：https://blog.csdn.net/lvaolan/article/details/141172999

版权

随着人工智能领域的迅猛发展，LLM（大型语言模型）技术已成为当前最引人关注的热点之一。这项技术的引入，为我们的生活和工作带来了许多重大变革。

什么是LLM?

2018-2019年发布的几个语言模型的参数数量

如今的LLM通常有几百亿到几千亿的参数

LLM 是“Large Language Model”的缩写，中文名为“大语言模型”。是一种被设计用于理解或生成人类自然语言的机器学习算法。

大语言模型可以用于各种自然语言处理任务，如文本生成、机器翻译、问答系统、自动摘要等。它们具有很高的语言理解和生成能力，可以生成连贯、自然的文本。

目前，许多公司和研究机构都在研究和开发大语言模型，其中一些知名的例子包括 OpenAI 的 GPT 系列、谷歌的 BERT 和 T5 等。这些模型在自然语言处理领域取得了显著的成就，并推动了人工智能在文本相关任务上的发展。

LLM技术原理

第一步：将词语转换成数字组合

语言的基本单位主要是词语，因此，大语言模型（LLM）工作的第一步，就是将词语转换为数字组合。例如，Cat（猫）这个词语，在LLM的数字世界里，用数字组合表示如下（这个数字组合包括多达300个数字）。

[0.0074, 0.0030, -0.0105, 0.0742, 0.0765, -0.0011, 0.0265, 0.0106, 0.0191, 0.0038, -0.0468, -0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]

不转换成数字组合不行吗？当然不可以，因为这个涉及到后续的电脑运算。

例如，蛇（snake）和鼠(rat)的数字组合，相比鼠(rat)与玫瑰（sose）的数字组合，在数学上更接近，因为，在日常生活中，人们更常把蛇跟鼠放在一块说。

第二步：应用多级规则解释句子，并试图预测后续出现的词语

大语言模型里设置了多层级的规则，就像通关游戏一样，一个句子突破了这一层级规则，还需要继续跳到下一层级，直到所有层级都突破后，才会进行下一个句子的预测。规则的设立原则主要是，尽可能多角度理解及分析句子

比如：

第一层规则，致力于理解句子中每个文字或词语的含义。例如，如果看到“女人”，就知道它与爱美有关。

第二层规则，致力于理解句子中每个单词是怎样关联的。例如，如果看到句子以“精致的妆容”开头，则预测下个单词很可能是“美女”，因为化着精致妆容的女人通常意味美。

第三层规则，致力于回忆前面句子中的内容，用来理解下个句子。例如，如果看到之前的句子提到“化妆”和“裙子”，根据上句的这些线索，预测下句很可能出现“美女“这个单词。

这一步，在LLM的术语里，叫做“Transformer”（转换器），这也是ChatGPT最后一个字母T的含义。（ChatGPT的英文全称为 Chat Generative Pre-trained Transformer）

第三步：通过不断进行大模型训练，提高输出的准确性

精确度越高的LLM，前期喂养的数据约多质量越高！因为大语言模型，主要是通过阅读和分析大量的文本，来识别文本的含义、关系、用途等等。数据越多，意味着精确度也就越高！

这就像训练一只狗。当类似的场景重复出现时，狗会建立起联系。想想巴甫洛夫的条件反射实验，只要摇铃，狗就会流口水。当狗的动作正确时，它就会得到奖励；当动作错误时，就会得到纠正。同样地，当重复出现的语言模式被输入到 LLM 中时，它也会记住。如果预测正确，LLM 会得到正反馈；如果预测错误，它会收到负反馈。

LLM 通过调整其内部设置来学习（想想它有多达 1750 亿个参数可以调整），这有点像狗的大脑变得更善于理解命令。它学会了预测在特定情境下接下来应该出现哪些单词。例如，当它看到“The sun is shining.”时，它学会了“shining”后面可能会跟着“brightly”或“today”。

知道了LLM运作的最底层逻辑之后，我们发现大量的数据，才是LLM真正需要的精神食粮，那我们又该从哪给它找到这些粮食呢？

LLM预训练语料库的来源

CommonCrawl

CommonCrawl 是一个免费、开放的网络爬虫数据集，旨在提供大规模的网页抓取数据，以供研究人员、开发者和数据科学家访问和分析互联网上的信息。该数据集由 Common Crawl Foundation 维护，该基金会是一个非营利性组织，致力于促进网络信息的开放共享。

CommonCrawl 数据集非常庞大，并且不断更新。具体可参考 Common Crawl - Overview，其中最新的 CC-MAIN-2023-50 共包含 33.5 亿个网页，压缩后的数据超过 130TB。具体如下图所示：

由于 CommonCrawl 数据集过于庞大，并且包含很多噪声，处理的成本很高，因此也有其他研究者提供了相应处理过的子集，比如 C4（Colossal Clean Crawled Corpus），可以参考 GitHub - google-research/text-to-text-transfer-transformer。

Wikipedia

Wikipedia 是一个由全球志愿者共同维护的在线百科全书项目。它涵盖了多种语言，涉及的领域广泛，并且质量很高。例如，如下图所示，“Large language model”页面有 29 种语言版本，并且分了各个部分进行介绍”

Books

相比其他语料库，书籍是一种高质量的语料库，它涵盖的语言和领域更为广泛，内容也更加正式。总的来说，使用书籍作为语料库来预训练 LLM 可以带来以下好处：

广泛的知识涵盖： 书籍包含了很多领域的知识，如科学、历史、文学和技术等。通过接触这些书籍，LLM 可以获得丰富多样的知识，有助于提高其对各种主题的理解和表达能力。

丰富的语言表达： 书籍中通常包含丰富而复杂的语言表达，包括各种风格、修辞和专业术语。通过学习书籍中的语言使用方式，LLM 可以更好地捕捉到语境、上下文和语法结构，提高其生成自然语言的能力。

专业的领域知识： 一些书籍涉及特定领域的深度知识，如科学、法律、医学等。在 LLM 的训练中使用这些书籍可以使模型更好地理解和生成与这些领域相关的内容。

多样性的文本结构： 书籍中的文本结构多种多样，包括章节、段落、脚注等。通过训练模型处理这些不同层次和结构的文本，有助于提高其对复杂文档和长文本的理解和处理能力。

知识结构和推理能力： 书籍中的内容通常有一定的逻辑和知识结构，通过训练模型学习这些结构，可以提高其在理解和生成逻辑推理、连贯性论述方面的能力。

语言多样性： 书籍中使用的语言可能涵盖多种方言、俚语和文学风格，这有助于训练模型更好地理解和生成多样化的语言表达。

Code

目前，许多 LLM 的预训练语料中也包含了代码，这些代码来自于 GitHub、GitLab 或其他编程问答网站（如 StackOverflow）。这对于 LLM 理解编程语言、代码注释和生成代码非常有帮助。此外，还有研究表明，这些代码语料对于 LLM 的推理能力也至关重要。

ArXiv

arXiv 是一个涵盖了各个学科领域的预印本平台，包括数学、物理、计算机科学等多个领域。这个平台包含了大量的特定领域术语和语言，例如数学符号、专业术语等。在预训练语料中加入 arXiv 中的论文，可以让 LLM 接触到广泛的学术知识，从而提高其对不同学科的理解能力。

Stack Exchange

高质量问答网站，从计算机科学到化学等多个领域都适用。

数据预处理

数据预处理是数据管理和挖掘中不可或缺的步骤，其中包括数据清洗、数据集成、数据转换和数据降维等任务。本文主要关注表格数据的数据清洗和数据集成，未来将探讨数据融合和数据整理等其他任务。

我们的数据模型基于关系表操作，假设所有属性都是数值或文本值。与传统定义不同，我们通过逐个处理记录来定义问题，因此可以轻松地为 LLM 编写提示。

数据预处理中的四个主要任务包括：错误检测（ED）、数据插补（DI）、模式匹配（SM）和实体匹配（EM）。传统方法主要依赖于手工规则、模式发现或异常检测，而现代方法则采用更先进的机器学习技术。

实体对齐和实体匹配的方法已经得到广泛研究。实体对齐的方法包括规则、生成对抗网络、注意力机制和预训练语言模型等。实体匹配的方法包括相似度矩阵和深度学习模型等。实体合并的方法包括分块和块内配对匹配，传统方法主要依赖于属性等价性、哈希或相似度，而现代方法则采用深度学习技术。

数据存储与加载

当前LLM预训练主要采用“NVIDIA 的 Megatron-LM 项目”或者“ DeepSpeed-Megatron 项目”，下面以此“原始 Dataset 结构”为例，展开介绍数据存储及加载技术。

原始 Dataset 结构

实际的预训练语料在训练之前都会先经过Tokenizer 分词，转换为 Binary 数据集（还没有 shuffle 和采样）。分词后的数据都以 Token ID 的方式存储，数据集的大小基本等价于 Token 数乘以每个 Token ID 的字节数。

如果词表大小比较小，小于 65536，则可以用 Uint16 表示，存储占磁盘大小基本等于 2*Token 数。

很多中文 LLM 需要包含中文词表，词表数往往超过这个限制，需要使用 Uint32，导致数据大小变为 4*Token 数。

同时，数据集通常包含不同来源，比如 CommonCrawl，Wikipedia，而且数据集有大有小，为了避免单个数据集过大，会将数据集切分为不同的 part，每个 part 都相当于一个新的子集，但是来自同一个数据集的不同 part 需要有相同的权重。此外，每个 part 都有 idx 和 bin 两个文件。

以下是一些子数据集的示例：

en-CommonCrawl-part18.idx

en-CommonCrawl-part18.bin

en-Wikipedia-part0.idx

en-Wikipedia-part0.bin

其中 idx 文件对应索引文件，bin 对应实际的 Token ID，如下图所示：

Index：包含 Head 和 Buffer 两部分（实际是连续的）

Head：存储 magic、version、dtype、len 和 doc_count

Buffer: 存储 Bin 中 Document 的起始位置和大小

Bin：存储实际的 Document，比如根据 points[m] 和 sizes[m] 即可以从 Bin 中获得 Document m。

值得注意的是，每个 Document 都已经 Token 化，并且已经添加过起始 Token ~~和终止 Token~~ 。

数据加载

如下图所示，BlendableDataset 是实际 LLM 预训练所使用的 Dataset，它在初始化阶段完成索引构建（可以进行缓存），在训练过程中直接遍历相应的 Sample 即可（返回数据包括子数据集的索引以及在子数据集中的位置索引）：

LLM三大应用

营销和广告

LLM（大型语言模型）可以应用于营销和广告领域，以提高营销效果和广告投放的精准度。以下是一些可能的应用方式：

内容创作： LLM 可以生成高质量的文本内容，例如广告文案、产品描述、博客文章等。它可以根据目标受众和营销目标，自动生成吸引人的内容，提高内容创作的效率和效果。

客户洞察： LLM 可以分析大量的客户数据，包括社交媒体帖子、评论、电子邮件等，以了解客户的需求、偏好和行为。这些洞察可以帮助营销人员更好地了解目标受众，制定更有效的营销策略。

个性化营销： 基于客户洞察，LLM 可以用于个性化营销。它可以根据每个客户的独特需求和偏好，生成个性化的广告消息、电子邮件和短信，提高客户的参与度和转化率。

广告优化： LLM 可以分析广告数据，如点击率、转化率等，以确定哪些广告元素和策略最有效。它可以提供有关广告投放时间、地理位置、广告内容等方面的优化建议，提高广告效果和投资回报率。

社交媒体营销： LLM 可以用于社交媒体营销，例如自动回复评论、生成社交媒体帖子、分析社交媒体数据等。它可以帮助企业更好地与受众互动，提高品牌知名度和忠诚度。

预测分析： LLM 可以利用机器学习技术进行预测分析，例如预测销售趋势、客户行为等。这些预测可以帮助营销人员做出更明智的决策，优化营销策略。

聊天机器人： LLM 可用于创建聊天机器人，以自然的方式与客户互动，这可以帮助企业提供全天候客户服务，而无需雇用额外的员工。例如，LLM 可用于创建一个聊天机器人，回答客户有关产品、服务和运输的问题。

零售和电子商务

LLM（大型语言模型）可以应用于零售和电子商务领域，以提高客户体验、增加销售和优化运营。以下是一些可能的应用方式：

客户服务： LLM 可以用于自动化客户服务，例如回答常见问题、提供产品信息和解决简单问题。它可以通过自然语言处理技术理解客户的问题，并提供准确和及时的回答，提高客户满意度。

个性化推荐： 基于客户的历史购买记录、浏览行为和偏好，LLM 可以用于生成个性化的产品推荐。它可以分析大量的数据，提供符合每个客户兴趣和需求的推荐，提高购买转化率。

商品描述和评论分析： LLM 可以分析商品描述和客户的评论，以了解产品的优点、缺点和热门需求。这些洞察可以帮助零售商优化产品页面、改进产品设计，并提供更有针对性的营销信息。

自动化营销： LLM 可以用于自动化营销邮件、短信和社交媒体消息的生成。它可以根据客户的购买历史和行为，生成个性化的营销内容，提高客户的参与度和购买意愿。

价格优化： 通过分析市场数据和竞争对手的价格，LLM 可以提供关于产品定价的建议。它可以帮助零售商确定最佳的价格策略，以提高销售量和利润。

库存管理： LLM 可以用于预测需求和优化库存管理。它可以根据销售数据、季节性趋势和其他因素，提供关于库存水平的实时建议，以避免过度库存或缺货。

客户情感分析： LLM 可以分析客户的反馈、评论和社交媒体帖子，以了解客户的情感和满意度。这些信息可以帮助零售商及时解决问题，改进产品和服务，提高客户忠诚度。

教育

LLM（大型语言模型）可以应用于教育领域，以提供个性化的学习体验、增强教学效果和促进学生的学习。以下是一些可能的应用方式：

智能辅导： LLM 可以作为智能辅导工具，回答学生的问题、提供解释和指导。它可以理解学生的问题，并根据其知识库提供准确和详细的答案，帮助学生更好地理解课程内容。

个性化学习： 基于学生的兴趣、能力和学习风格，LLM 可以生成个性化的学习计划和资源推荐。它可以根据学生的表现和进步，调整学习路径，提供适合每个学生的学习体验。

语言学习： LLM 可以用于语言学习，提供语法纠正、词汇扩展和语言练习等功能。它可以与学生进行对话，提供实时反馈和指导，帮助学生提高语言技能。

自动化评估： LLM 可以分析学生的作业、论文和其他提交的作品，进行自动评估和反馈。它可以识别语法错误、提供写作建议，并给出相应的评分，减轻教师的评估负担。

自适应学习： 通过分析学生的学习数据，LLM 可以适应性地调整教学内容和难度级别。它可以识别学生的学习瓶颈，并提供针对性的支持和资源，以帮助学生克服困难。

虚拟实验室和模拟器： LLM 可以创建虚拟实验室和模拟器，提供给学生进行实践和实验的环境。这可以帮助学生在安全的环境中进行实践操作，培养实际技能。

智能答疑： 学生可以向 LLM 提出问题，寻求解答和解释。LLM 可以快速提供准确的答案，帮助学生解决疑惑，促进自主学习。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓