【LLaMA-Factory 】高效微调 100 多种大语言模型：先计算法，急速推理

AAI机器之心

于 2024-08-05 16:25:00 发布

阅读量464

点赞数 16

文章标签： llama 人工智能 langchain prompt LLM embedding 大模型

本文链接：https://blog.csdn.net/AAI666666/article/details/140930304

版权

在这里插入图片描述

LLaMA-Factory 是一个用于高效微调 100 多个大型语言模型（ACL 2024）的 WebUI。

多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。
集成方法：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
多种精度：16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
先进算法：GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA 和 Agent 微调。
实用技巧：FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。
实验监控：LlamaBoard、TensorBoard、Wandb、MLflow 等等。
极速推理：基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。

Stars: 14.4k License: Apache-2.0

Abseil-Cpp 是一个包含 Abseil C++ 库代码的开源项目，旨在增强 C++ 标准库。该项目的主要功能、关键特性和核心优势包括：

提供了缺失于 C++ 标准库中的部分功能
提供了适用于特殊需求的标准库替代品
包含了来自 Google 自身 C++ 代码库的经过广泛测试和生产使用的代码
不是标准库的竞争对手，而是为了将这些实用工具提供给整个 C++ 社区

这些特性使得 Abseil-Cpp 成为一个有价值的 C++ 开源项目。

Stars: 5.2k License: MIT

在这里插入图片描述

scalar 是从 OpenAPI/Swagger 文件生成美观的 API 参考文档。该项目主要解决了从 OpenAPI/Swagger 文件生成交互式 API 文档的问题。

使用 OpenAPI/Swagger 规范
支持大量语言和框架的请求示例
集成了 API 客户端
实时预览编辑你的 OpenAPI/Swagger 规范

Stars: 4.8k License: NOASSERTION

在这里插入图片描述

langfuse 是一个开源的 LLM 工程平台，提供可观测性、指标、评估、提示管理、沙盒和数据集等功能。它与 LlamaIndex、Langchain、OpenAI SDK、LiteLLM 等项目进行集成。该项目在 YC W23 孵化器中。以下是 langfuse 的主要功能、关键特性和核心优势：

可观测性：为应用程序提供仪表盘和数据导出，跟踪指标（成本、延迟、质量）并从中获取洞察。
提示管理：在 langfuse 中管理、版本控制和部署提示。
评估：收集和计算 LLM 完成的分数，进行基于模型的评估。
沙盒：测试应用程序行为，使用数据集测试输入输出对并进行性能基准测试。
集成：与多个项目进行集成，包括 OpenAI、Langchain、LlamaIndex 等。
部署：提供云端托管和本地部署选项，使用 Docker 进行自托管。

langfuse 是一个功能丰富的工程平台，适用于开发者进行语言模型相关的工作。

Stars: 2.4k License: Apache-2.0

在这里插入图片描述

swift 是一个用于微调 200+ LLMs 或 15+ MLLMs 的 PEFT 或 Full-parameter 工具。该项目的主要功能、关键特性、核心优势包括：

支持训练、推断和部署近 200 个 LLM 和 MLLM
提供轻量级训练解决方案 PEFT 以及适配器库支持 NEFTune，LoRA+，LLaMA-PRO 等最新训练技术
提供 Gradio web-ui 进行控制训练和推断，并提供深度学习课程和初学者最佳实践指南
扩展了对其他模态的能力，目前支持全参数培训以及 AnimateDiff 的 LoRA 培训

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍