只激活3.8B参数，性能比肩同款7B模型！训练微调都能用，来自微软

最新推荐文章于 2024-11-15 20:05:10 发布

程序猿李巡天

最新推荐文章于 2024-11-15 20:05:10 发布

阅读量933

点赞数 27

文章标签：语言模型数据分析人工智能安全开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59235945/article/details/140879467

版权

只需激活60%的参数，就能实现与全激活稠密模型相当的性能。

微软亚洲研究院的一项新研究，实现了模型的完全稀疏激活，让推理成本大幅下降。

而且适用范围广泛，无论是从头训练、继续训练还是微调，都能提供有效支持。

该方法名为Q-Sparse，在神经元级别上实现了模型稀疏化，相比于其他方式粒度更细，在相同推理开销下，无论性能还是稀疏率都更好。

名称之中，Q指的是量化（Quantization），意味着它除了普通模型之外，也兼容量化技术，适用于各种量化方式的模型。

作者进一步表示，如果把Q-Sparse与模型量化技术结合，还可以实现更大程度的降本增效。

另外在研究Q-Sparse的同时，团队也对参数规模、稀疏率和模型性能三者之间的关系进行了深入探寻，并发现了适用于模型推理优化的“Scaling Law”。

有网友认为，这项技术确实不错，而且比ReLU要更好。

还有人开启了许愿模式，表示如果（AMD的）ROCm能比英伟达更快支持这项技术就好了。

用Top-K函数实现稀疏化

Q-Sparse所做的最核心的操作，是对输入的张量应用Top-K稀疏化函数。

具体来说，Transformer架构在注意力层和前馈层中都使用nn.Linear线性层（矩阵乘法）进行投影，可以表示为Y=X·W^T。（其中X就是输入张量，W代表其权重，Y为输出张量）

Q-Sparse中，对于一个输入激活张量X，首先会计算其绝对值|X|并进行排序，找出其中绝对值最大的K个元素。

这里的K是预先设定的超参数，决定了稀疏化的程度。

之后Q-Sparse会创建一个与X形状相同的二进制掩码张量M，对于一系列|X|中绝对值最大的K个元素对应的位置，将M中的相应位置设置为1，其余位置设置为0。

接着，将输入张量X与掩码张量M进行Hadamard积（逐元素相乘）运算，就得到了稀疏化的张量X_sparse。

在前向传播过程中，稀疏化后的张量X_sparse将代替原始的输入张量X参与后续的计算（如矩阵乘法）。

由于X_sparse中大部分元素已经被设置为零，因此可以显著减少计算量和内存带宽需求。

在反向传播过程中，Q-Sparse使用了直通估计器（Straight-Through Estimator，STE）来计算Top-K函数的梯度。

传统的训练方式中，通常需要计算损失函数对网络参数的梯度，并使用梯度下降法更新参数以最小化损失。

但当网络中存在量化、Top-K等一些不可微的操作时，梯度的计算就会遇到问题，因为这些操作的输出对输入的梯度在大多数点上都是0，导致梯度无法有效传播。

STE通过直接将梯度传递给稀疏化之前的张量，避免了梯度消失的问题。

一般的反向传播中，损失函数L对x的梯度∂L/∂x=∂L/∂y⋅∂y/∂x，但由于不可微分无法直接计算。

STE的解决方案是只计算损失函数对稀疏化张量y的梯度，然后将其直接复制给原始张量x，也就是直接将∂L/∂y作为∂L/∂x的估计。

△有/无STE时的梯度比较

对于前馈层，Q-Sparse使用平方ReLU函数代替常规的ReLU激活函数，平方运算可以进一步提高激活的稀疏性（⊙表示Hadamard积）。

另外，为了适配量化模型，Q-Sparse在应用Top-K稀疏化之前，会先对输入张量进行量化，以确保稀疏化操作与量化表示兼容，其函数表示如下：

其中，ε是一个小常数，用于避免出现分母为零的情况。

特别的，对于1-bit量化的权重，Q-Sparse使用以下量化函数，其中α是权重张量W的平均绝对值。

60%激活参数达到相同效果

对比实验表明，无论是稀疏率还是模型表现，Q-Sparse都显著优于此前的ReLU方法。

针对Q-Sparse的具体效果，作者对其在从头训练、继续训练和微调三项任务上的性能进行了评估。

从头训练实验使用的模型为Llama，结果在700M和7B模型上，使用70% top-K(即40%的整体稀疏率)的Q-Sparse可以达到与密集baseline相当的训练损失。

继续训练的目的是将稠密模型稀疏化，这里的实验对象是Mistral-7B。

结果，在激活参数为2.9B和3.8B的情况下，模型在ARC、MMLU等数据集中的得分均未发生明显下降。

在微调实验中，对于Qwen-7B和Mistral-7B两种模型，Q-Sparse显示出了与继续训练相似的结果，用60%左右的激活参数实现了与密集模型十分接近的表现。

这些结果意味着，在相同的性能下，与密集模型相比，稀疏激活模型在推理过程中可以显著减少激活参数，进而降低消耗FLOPS的数量。

对于量化模型，团队在自研的BitNet b1.58模型上应用了Q-Sparse，并在多个数据集上进行了训练和评估。

可以看到，在700M和7B两种规模下，使用Q-Sparse的量化模型的收敛速度和最终损失函数值与未使用Q-Sparse的量化模型(BitNet b1.58)相当。

这说明Q-Sparse可以无缝集成到量化模型中，而不会显著影响模型的训练和收敛。

据此作者认为，将Q-Sparse与量化技术相结合，可以进一步提高大语言模型在推理阶段的效率。

发现推理优化新“Scaling Law”

除了测评这些模型采取稀疏激活时的表现，作者也对模型性能、规模和稀疏率三者之间的关系进行了探究，并有了一些新的发现。

稀疏激活模型的性能缩放定律: 作者发现，与密集模型类似，稀疏激活模型的性能也遵循一个幂律缩放关系。

具体来说，给定稀疏率S，模型在收敛时的损失函数值L(N,S)可以用以下公式近似：

其中，N是模型参数的数量；E是一个常数，表示模型在无限大时的损失；A(S)是一个与稀疏率S有关的缩放因子。

这个缩放定律表明，稀疏激活模型的性能随着模型规模的增大而提高，但提高的速度会逐渐变慢。

同时作者发现，模型的性能也会受到稀疏率的影响。

在参数规模与性能之间关系的部分提到，A(S)是一个与稀疏率S有关的缩放因子，可以用以下公式近似：

其中B和C是常数，β是一个控制指数衰减速度的参数。

这个公式表明，当稀疏率S增大（模型变得更稀疏）时，意味着更高的稀疏率会导致性能的下降，下降的速度是指数级的。

基于上述发现，作者得出了一个推理最优的稀疏率S*，能在预算（推理时的浮点操作数）一定时，实现模型损失函数值的最小化。

对于全精度（FP32）模型，最优稀疏率约为45.58%；而低精度（如1.58-bit）模型的最优稀疏率则更高，约为61.25%。

作者观察到，随着模型规模的增大，稀疏激活模型与密集模型之间的性能差距逐渐缩小。

这可以从缩放定律中得到解释：当模型规模N趋于无穷大时，稀疏激活模型的损失函数值趋于L(∞,S)=E，而密集模型的损失函数值趋于L(∞,0)=E。

这意味着，在极大规模下，稀疏激活模型有可能达到与密集模型相当的性能，为设计和训练大规模稀疏激活模型提供了一个有用的参考。

论文地址：https://arxiv.org/abs/2407.10969

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

程序猿李巡天

关注

27
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。