大模型加速与压缩
文章平均质量分 94
记录大模型的环境配置,论文与代码解读,以及科研idea和推理部署方案
Walker@Bruce Lee
应用统计硕士->CS phd在读,计算机视觉算法工程师
展开
-
大模型实现低显存推理优化——DeepSpeed 安装及OffLoading相关代码实现
本文介绍了大模型显存推理优化只OffLoading技术,具体涉及DeepSpeed以及Accelerate的相关介绍以及代码测试原创 2024-09-24 16:47:30 · 1208 阅读 · 0 评论 -
大模型加速与压缩之wanda代码详解
本文详细介绍了Wanda剪枝的代码实现。以剪枝OPT-125m模型为例,详细介绍了Wanda剪枝算法的步骤,包括加载预训练模型、使用校验数据执行前向传播计算得到layers的输入、执行layer剪枝以及评估剪枝后的模型。剪枝过程主要针对模型中的线性权重,如nn.Linear。通过计算权重和激活的乘积,确定权重的重要性,并进行非结构化或结构化剪枝。原创 2024-09-07 13:46:29 · 726 阅读 · 0 评论 -
Pruner-Zero论文阅读与代码有效复现及相关记录——SparseGPT/Wanda同理
大模型剪枝技术之Pruner-Zero代码复现即相关问题记录原创 2024-08-07 21:52:05 · 865 阅读 · 0 评论 -
Win11本地Pycharm与Vscode实现最有效远程连接Ubuntu服务器——深度学习项目代码远程运行与调试的有效配置
Win11本地Pycharm以及Vscode通过远程连接服务器的项目,进行配置的完整步骤。可以实现在本地有效运行和调试服务器远程项目代码。本文介绍了大模型加速与压缩在本地调试代码时的基本配置和步骤原创 2024-08-06 21:58:13 · 972 阅读 · 1 评论 -
大模型基础配置之Win11安装HuggingFace Transformers库
Transformer是大语言模型(Large Language Model, LLM)的基础架构Transformers库是HuggingFace开源的可以完成各种语言、音频、视频、多模态任务情感分析文本生成命名实体识别阅读理解:给的那个上下文,从上下文提取答案掩码填充:完形填空文本摘要机器翻译文本表征对话机器人相关库的介绍及其地址Transformers库:核心库模型加载,训练,流水线Tokenizer:分词器,预处理Datasets:数据集库。原创 2024-07-18 18:54:41 · 964 阅读 · 0 评论