基于微调技术打造自己的私有LLM大模型

中年猿人

于 2024-07-03 15:22:36 发布

阅读量765

点赞数 35

文章标签：人工智能 chatgpt 机器学习学习自然语言处理

本文链接：https://blog.csdn.net/2301_76161259/article/details/140153292

版权

ChatGPT 是“大力出奇迹”的典型代表，通过千亿级训练参数带来惊人的智能，但大模型并不完美，甚至一些在我们看来很简单的任务都完成不了，比如我们构建一个简单计算任务（如下）：

ChatGPT-4.0 错误回答如下：

我们必须明白，尽管 AI 在一定程度上模仿了人脑的工作方式，但实际上，机器人和人脑在处理信息时采用的策略有很大的不同。因此，即使在未来，我们也需要继续改进 AI 框架，以解决这种差距。比如一个百万位数的加法任务，ChatGPT-4 囿于 token 数的限制是不可能完成这个任务的，但人类却可以，这恰是人类和 AI 需要弥补的 GAP。

这就是为什么 LLM 大模型已经很强大了，我们还需要继续微调它的其中一个原因，除了这个原因外，还有4点需要微调的原因。

第二、缺乏专有数据，比如：企业内部的私有数据。

第三、缺乏最新数据，比如：GPT-4 的训练数据截止到2021年9月。

第四、预训练成本高，比如：GPT-3 预训练成本为140万美金。

第五、提升数据安全性，比如：企业私有数据是不能传递给第三方大模型的，基于开源大模型的微调才能满足业务的需求。

— 1 —

LLM 大模型微调（Fine tuning）技术

Fine tuning 是指在预训练模型的基础上，使用特定的任务数据对模型进行重新训练，以适应具体的应用场景或任务。通常，预训练模型通过大规模数据集进行事先训练，获得广泛的语言理解和生成能力。而 Fine tuning 则是在此基础上，针对特定任务的数据集进行进一步训练，以使模型更好地适应该任务，并提高其性能。通过 Fine tuning，可以使模型更加专业化，提高在具体任务上的准确性和效果。

— 2 —

微调（Fine tuning）实现原理

Fine tuning 是一种迁移学习的方法，它基于预先训练好的模型，提供特定语料进行微调，让机器人学习指定的数据格式进行模仿创新，使之适应特定的任务。

比如：让 ChatGPT 学习不同类型的古诗是怎么写的，他将拆解学习案例的语言结构、用词特点和格式等，以此作为依据进行创作。

这种方法能够节省大量的计算资源和时间，因为我们不需要从头开始训练一个全新的模型。

在 OpenAI 的情境下，我们通常会使用一个大型的预训练模型（比如：ChatGPT-3.5），然后通过 Fine tuning 的方式，让它适应我们特定的任务，例如文本分类、命名实体识别等。

OpenAI 的 Fine tuning 技术基于预训练模型，通过在小规模任务上对该模型进行微调来快速适应具体的任务。

其核心原理是将预训练模型的权重进行微调，以适应新任务的输入和输出。

Fine tuning 特点是模仿再创新。

— 3 —

微调（Fine tuning）适用场景

Fine tuning（微调），更适合于教授模型新的任务或模式，而不是新的信息。微调就是在大模型的数据基础上做二次训练，事先准备好一批 Prompt-Complition（类似于问答Q&A）的数据，生成新的模型，这个模型将会包含微调后的数据。比如，你可以使用 Fine tuning 来训练模型生成特定风格的文本，或者执行特定的 NLP 任务。Fine tuning 并不适合于作为知识存储，也不适合于问答任务。

ChatGPT 就像一个已经训练好的家政阿姨，她懂中文，会做家务，但是对你家里的情况不了解。微调就相当于阿姨第一次到你家干活的时候，你要花一小时时间告诉她家里的情况，比如物件的摆放、哪些地方不能动，哪些地方要重点照顾。

— 4 —

微调（Fine tuning）训练步骤

Fine tuning 一般包括以下步骤：

第一、加载预训练模型：选择一个与所需任务相关的预训练模型，并加载其权重。

第二、选择任务数据集：选定特定任务所需的数据集。

第三、对模型进行微调：将任务数据集作为输入，以最小化模型在此数据集上的损失函数。在这个过程中，通常需要在训练集和验证集上进行多次迭代，以避免过拟合问题。

基于以上步骤，详细总结如下：

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

中年猿人

关注

35
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
基于微调技术打造自己的私有LLM大模型

ChatGPT 是“大力出奇迹”的典型代表，通过千亿级训练参数带来惊人的智能，但大模型并不完美，甚至一些在我们看来很简单的任务都完成不了，比如我们构建一个简单计算任务（如下）：ChatGPT-4.0 错误回答如下：我们必须明白，尽管 AI 在一定程度上模仿了人脑的工作方式，但实际上，机器人和人脑在处理信息时采用的策略有很大的不同。因此，即使在未来，我们也需要继续改进 AI 框架，以解决这种差距。
复制链接

扫一扫