大模型融合太难？一行代码搞定！

我爱学AI

于 2024-05-16 09:54:42 发布

阅读量866

点赞数 30

文章标签：机器学习人工智能大模型 ai 开源 llama

本文链接：https://blog.csdn.net/python1234_/article/details/138946476

版权

模型合并是近年来兴起的一种新技术。它允许将多个模型合并成一个模型。这样做不仅可以保持质量，还可以获得额外的好处。

假设我们有几个模型:一个擅长解决数学问题，另一个擅长编写代码。在两种模型之间切换是一个很麻烦的问题，但是我们可以将它们组合起来，利用两者的优点。而且这种组合的方法可以不需要GPU来完成。

在本文中我们将介绍各种合并算法，研究如何实现它们，并深入研究它们的工作原理。还将使用mergekit工具合并Mistral、Wizard Math和Code Llama模型。

模型合并算法

有几种用于组合模型的算法。其中许多使用加权平均组合。但是在本文中，我将重点介绍一些更高级的算法，并将它们按复杂度递增的顺序排列。

1、Task Vector

这种方法引入了一种使用“Task Vector”修改神经网络行为的方法。这些向量表示预训练模型权重空间中的方向，可以表示在特定任务上改进的性能。

向量可以通过算术运算来计算，比如加法或者减法，从而允许在模型中进行有针对性的行为改变:

Task Vector提供了一种简单而有效的方法来编辑模型，从而实现性能改进、减少偏差和使用新信息更新模型。该方法已被证明可以很好地处理各种模型和任务。

基于Task Vector的模型编辑为控制和改进神经网络模型在各种任务中的性能提供了一种新颖而通用的方法。

2、SLERP

SLERP解决了传统加权平均方法在模型合并中的局限性。它提供了一种更细致的方法，以一种保留高维空间中每个父模型的独特特征和曲率的方式混合模型。

SLERP的优点如下：

平滑过渡:确保更平滑的参数过渡，在高维矢量插值至关重要。

特征保存:保持两个父模型的不同特征和曲率。

细致的混合:考虑矢量空间中的几何和旋转属性，从而产生准确反映两种模型特征的结果。

SLERP流程:

在这里插入图片描述

1、输入向量归一化为单位长度，关注方向而不是大小。

2、这些向量之间的角度是用它们的点积确定的。它根据插值因子和矢量之间的夹角计算尺度因子。

3将原始向量与这些因子加权并求和，得到插值向量。

SLERP能够以一种平滑地在参数之间转换的方式合并模型，并保留每个模型的独特特征，使其成为复杂模型合并任务的首选方法。尽管SLERP在同时合并两个模型方面很流行且有效，但它仅限于两两组合。

3、TIES

传统的模型合并在处理不同模型参数之间会获得不同的干扰。当合并多个模型时，这种干扰会导致性能的大幅下降。

为了克服这些挑战，TIES方法引入了三个步骤:

在这里插入图片描述

1、重置在微调期间只发生轻微变化的参数。这一步有助于减少冗余。

2、解决了由于不同模型的参数值符号不同而产生的冲突。

3、它只合并那些与最终商定的符号一致的参数。

ties - merge方法已被证明在各种设置下优于几种现有的merge方法。它有效地解决了干扰问题，特别是符号干扰，增强了合并模型的整体性能。

4、DARE

DARE不需要再训练或gpu。它主要关注于学习类似(同源)模型的参数，它使用与TIES类似的方法，但有两个主要区别:

Delta参数的修剪:通过将它们设置为零来识别和消除大多数Delta参数(微调和预训练参数之间的差异)。这个过程不会显著影响模型的功能。较大的模型可以较大比例丢弃这些参数。

重缩放权重:增加了一个重缩放步骤，其中调整模型的权重以保持输出期望大致不变。这可以将模型的“大”比例权重添加到具有比例因子的基本模型的权重中。

算法的工作步骤如下:

在这里插入图片描述

1、修剪将微调权重重置为原始预训练值，减少不必要的参数更改。

2、合并将多个模型中的参数进行平均，以创建一个统一的模型。

3、重新缩放调整合并模型的权重以保持其预期性能。

DARE提供了一种独特而有效的方法，通过修剪和重新缩放参数来合并语言模型，从而使模型具有增强和多样化的功能，而无需进行大量的再训练。

合并模型演示

我们将使用mergekit合并模型，这是一个为合并预训练的语言模型而设计的工具包。它支持上面我们介绍的所有算法，并且设置起来非常简单。模型合并可以只在一个CPU上运行，当然有GPU会更好。

安装：

 python3 -m pip install --upgrade pip 
 git clone https://github.com/cg123/mergekit.git 
 cd mergekit && pip install -q -e .

我将下面三个模型进行混合：Mistral-7b, WizardMath-7b和CodeLlama-7b。这是yaml配置:

 models:  
 - model: mistralai/Mistral-7B-v0.1 # no parameters necessary for base model  
 - model: WizardLM/WizardMath-7B-V1.0    
  parameters:      
   density: 0.5 # fraction of weights in differences from the base model to retain      
   weight:   # weight gradient        
    - filter: mlp          
    value: 0.5        
    - value: 0  
 - model: codellama/CodeLlama-7b-Instruct-hf    
  parameters:      
   density: 0.5      
   weight: 0.5 
 merge_method: ties 
 base_model: mistralai/Mistral-7B-v0.1 
 parameters:  
 normalize: true  
 int8_mask: true 
 dtype: float16

运行:

 mergekit-yaml ultra_llm_merged.yaml output_folder \    
  --allow-crimes \ # Allow mixing architectures    
  --copy-tokenizer \ # Copy a tokenizer to the output    
  --out-shard-size 1B \ # Number of parameters per output shard    
  --low-cpu-memory \ # Store results and intermediate values on GPU. Useful if VRAM > RAM    
  --write-model-card \ # Output README.md containing details of the merge    
  --lazy-unpickle # Experimental lazy unpickler for lower memory usage

同时合并多个模型需要大量的资源。我们这个测试是在30个vcpu的系统，资源和时间如下:

下载模式:大约5分钟。

合并过程:大约7分钟。

峰值内存使用:30Gb。

这些时间和资源消耗可能会根据正在合并的特定模型而变化。

总结

我们介绍了合并模型几种算法的工作原理。并且使用mergekit来对三个LLM进行了简单的合并实验，我相信在不久的将来，我们将看到通过合并创建的模型越来越多。因为这是一种结合有用技能而不需要微调的经济有效的方法。

最后mergekit使用也非常简单，并且支持很多模型和不同的合并方法，需要更详细的信息可以看他的github：

https://github.com/cg123/mergekit

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

我爱学AI

关注

30
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
大模型融合太难？一行代码搞定！

我们介绍了合并模型几种算法的工作原理。并且使用mergekit来对三个LLM进行了简单的合并实验，我相信在不久的将来，我们将看到通过合并创建的模型越来越多。因为这是一种结合有用技能而不需要微调的经济有效的方法。最后mergekit使用也非常简单，并且支持很多模型和不同的合并方法，需要更详细的信息可以看他的github：
复制链接

扫一扫