稀疏计算、彩票假说、MoE、SparseGPT

taoqick

已于 2024-02-23 18:09:57 修改

阅读量1.1k

点赞数 14

文章标签：机器学习人工智能深度学习

于 2024-02-23 18:09:13 首次发布

本文链接：https://blog.csdn.net/taoqick/article/details/136261686

版权

本文探讨了稀疏计算作为深度学习未来发展的重要方向，介绍了彩票假说、MoE结构以及SparseGPT等技术，强调了通过参数剪枝减少计算量，提升模型效率的方法。墨芯科技和A100GPU的应用展示了这一技术的实际潜力和应用案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

稀疏计算可能是未来10年内最有潜力的深度学习方向之一，稀疏计算模拟了对人脑的观察，人脑在处理信息的时候只有少数神经元在活动，多数神经元是不工作的。而稀疏计算的基本思想是：在计算过程中，将一些不重要的参数设置为0，从而减少计算量。而这种计算量的减少规模经常是10倍级别，这为部署提速提供了想象力。业界已有一些公司例如墨芯科技在做这方面的工作，并取得了一些成果，大家可以看他们的宣传视频（https://mp.weixin.qq.com/s/NHydrLhqJYGbvF7eY2m9RA），下面推荐几篇经典的文章：

The Lottery Ticket Hypothesis（彩票假说）

推荐理由：这是这个领域里非常经典的一篇文章，作者提出了一种生成稀疏的高性能网络的简单方法：在对网络进行训练后，将所有小于某个阈值的权重设置为0（对其进行剪枝），将其余权重重置回其初始配置，然后在保证被剪枝的权重处于冻结状态的情况下（未经过训练），从这个起始配置重新训练网络。在训练最多相同次数的迭代后，它可以与原始网络的测试精度相匹配。
论文地址： https://openreview.net/pdf?id=rJl-b3RcF7
相关解读： https://zhuanlan.zhihu.com/p/675189739 和 https://www.bilibili.com/read/cv2806397/

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING （来自Jeff Dean的综述）

推荐理由：尽管彩票假说给业界提供了想象力，但是选择哪些参数裁掉仍是业界一个需要探索的问题。MoE结构提供了一种方案，例如Mixtral 8✖️7B就是一种典型的MoE结构（https://zhuanlan.zhihu.com/p/673527090）。Jeff Dean的综述比较详细地介绍了什么是top-k routing、Upstream Scaling和Downstream Scaling
论文地址： https://arxiv.org/abs/2209.01667
相关解读： https://mp.weixin.qq.com/s/mTqCMYUqo1ifcmxlYHYm2A 和 https://huggingface.co/blog/zh/moe

SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

在这里插入图片描述

推荐理由：该算法能够只用一张 A100(80G)，在 4.5 个小时左右将 OPT-175B 的模型权重完成 60% 稀疏度的剪枝，且能保持较高的精度。而且可以很好地扩展到 2:4 模式的半结构化剪枝，以适配 A100 的稀疏计算。SparseGPT用来剪枝的思路其实和GPTQ有些类似，都是利用海森矩阵贪心地进行迭代更新，同时利用Cholesky分解来稳定数值计算
论文地址： https://arxiv.org/pdf/2301.00774.pdf