谈LLM的数据工程，搞大模型等于洗数据？

程序猿李巡天

于 2024-07-28 10:45:00 发布

阅读量785

点赞数 18

本文链接：https://blog.csdn.net/m0_59235945/article/details/140740573

版权

在过去的一年中，关于大模型的研究揭示了一个不好的现象：许多人认为，只要向大模型输入大量数据即可，而不顾数据的噪声和质量。在计算机视觉（CV）时代，每张图片都需要人工标注，无论是分类、检测还是分割任务，标注数据的准确率必须达到97%以上。计算机视觉的先驱李飞飞通过人工标注了ImageNet 300M数据集，才使得她的研究走进了大众视野。这一过程充分说明了“有多少智能就需要多少人工”的道理。

在大型语言模型（LLM）的训练中，数据同样起着至关重要的作用。无论是预训练阶段还是监督微调阶段，有效的数据管理对增强模型性能和提高训练效率都具有重要意义。2023年的实践表明，即使是最强大的模型，如果缺乏领域知识的协同，仍然无法在生产环境中有效运行。

我们先尝试回答以下关键问题：

基础模型能否完成任务？
首先需要评估基础模型的能力，看它是否能够满足特定任务的需求。如果基础模型无法胜任，则需要进一步的优化和调整。
需要什么数据？
确定完成任务所需的数据类型和质量，包括领域特定的数据、噪声水平和标注准确率等。
数据从哪里来？
识别可靠的数据来源，这些数据可以是公开的、合作伙伴提供的，或是通过自主采集获得的。
增量训练还是SFT，还是知识库？
决定采用增量训练（Incremental Training）、特殊任务微调（SFT）还是通过构建知识库来提升模型性能。这取决于任务的具体需求和数据的可用性。
如何构造训练数据集、检索知识库？
制定数据集和知识库的构建策略，包括数据收集、预处理、标注、分割和存储等步骤。
推理时能否用这些数据？如何管理这些数据？
评估在推理阶段使用这些数据的可行性，并制定数据管理策略，确保数据在使用过程中的一致性和安全性。

在大模型研发过程中，数据工程的角色至关重要。为了更好地理解和应用这一概念，我们可以将大模型数据工程划分为狭义和广义两个层面。

狭义研发大模型数据工程

狭义上，研发大模型的数据工程可以定义为：依据具体的研发场景与任务，采集相关研发数据，并生成模型预训练语料或微调数据集。这一过程包括以下关键步骤：

数据采集：从多种来源获取相关数据，包括公开数据集、合作伙伴提供的数据、自主采集的数据等。
数据预处理：对采集的数据进行清洗、去噪和标准化处理，确保数据质量。
数据标注：根据任务需求对数据进行标注，以便在训练过程中使用。
数据集构建：将处理后的数据构建成适合预训练或微调的语料库或数据集。

这种狭义的数据工程关注的是为特定任务生成高质量的训练数据，以提高模型的性能和准确性。

广义研发大模型数据工程

广义上，研发大模型的数据工程不仅包括上述步骤，还涵盖了在增量预训练、SFT（特殊任务微调）、RAG（检索增强生成）和Prompt等不同阶段的数据处理和应用。广义的数据工程可以定义为：依据研发场景与任务，全面处理和应用相关数据，以支持大模型在各个阶段的研发和优化。这些数据可以视为研发资产，具体包括：

研发资产：高质量的数据是研发的宝贵资产，直接影响模型的性能和应用效果。
RawData：用于各类作业的原始数据，未经过处理或仅进行初步清洗。
工程规范积累：在数据处理和应用过程中形成的规范和标准，指导未来的数据工程实践。

在广义的数据工程中，数据处理和应用的范围更加广泛，涉及以下几个方面：

增量预训练：在已有模型的基础上，通过引入新的数据进行增量训练，以提高模型的泛化能力和性能。
特殊任务微调（SFT）：针对特定任务，通过微调模型参数，优化模型在特定任务上的表现。
检索增强生成（RAG）：结合检索和生成功能，通过实时检索外部数据源，提高生成内容的准确性和相关性。
Prompt工程：设计和优化提示词，以引导模型生成更符合需求的输出。

所以，在大模型（LLM）的研发过程中，数据处理的重要性不容忽视。尽管大模型在处理复杂任务方面展现出强大的能力，但事实证明，人工在数据处理中的角色依然不可或缺。

虽然大模型具备强大的自动化能力，但在数据处理环节，人工依然扮演着不可或缺的角色。高质量的数据是模型成功的基础，而这些数据的获取和处理过程，需要大量的人工参与和精细化操作。未来，随着技术的不断进步，自动化工具将会越来越完善，但人工在数据质量控制和模型优化方面的重要性依然不会减少。只有充分结合人工智慧和机器智能，才能在大模型研发中取得更加显著的进步和成果。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

程序猿李巡天

关注

18
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
谈LLM的数据工程，搞大模型等于洗数据？

在过去的一年中，关于大模型的研究揭示了一个不好的现象：许多人认为，只要向大模型输入大量数据即可，而不顾数据的噪声和质量。在计算机视觉（CV）时代，每张图片都需要人工标注，无论是分类、检测还是分割任务，标注数据的准确率必须达到97%以上。计算机视觉的先驱李飞飞通过人工标注了ImageNet 300M数据集，才使得她的研究走进了大众视野。这一过程充分说明了“有多少智能就需要多少人工”的道理。在大型语言模型（LLM）的训练中，数据同样起着至关重要的作用。
复制链接

扫一扫