青春已度雁门关-CSDN博客

原创 unbuntu22.04上安装OBS

安装完成后，您将能够使用OBS Studio进行视频录制和直播等操作。请注意，这只是一个基本的安装过程，根据您的具体需求，可能需要进行其他配置和调整。如果您遇到任何问题，可以参考OBS Studio的官方文档或在相关社区寻求帮助。

2024-05-11 22:58:17 606

原创 Window CPU环境本地部署ChatGLM3-6B模型

在window CPU环境部署chatGLM3-6B大模型

2024-05-03 21:48:43 738 1

原创使用tree_sitter获取代码AST抽象语法树

使用python 库tree_sitter解析代码并生成AST抽象语法树

2024-05-01 18:40:29 1509 4

卡间通信延长对训练时长的影响未有明确测算公式，根据现有实例推测：H800相对于H100也仅有卡间通信速率的下降（约50%），其在执行训练任务时，H800消耗比H100多10%-30%的时间。激活值所消耗的额外显存随batchsize的大小而增加，在batchsize较大时，此部分额外显存消耗远远大于模型参数的消耗，采用激活重计算技术可将中间激活显存从O(n)减少到O(√n)。从官方给出的技术规格上来看，在模型训练中最关注的显存与算力参数完全一致，80GB版本GPU显存带宽一致。

2024-05-01 10:45:55 4454 3

原创大模型推理资源评估方法

由于1、模型容量限制可能不足支撑专业分析任务 2、代码类的模型往往具有更大的参数量，也对当前开源的34B与70B模型的部署进行了硬件资源需求评估。对于该模型的开发阶段，考虑微调的情况（显存消耗约为推理的3倍：12.64×3=37.92GB），需要大约1块A100/A800（40GB）或 2块V100（32GB）。模型在推理时的空转显存占用约70GB，大约需要2张A100/A800（40GB）显卡或 1张A100/A800（80GB）或 3张V100（32GB）显卡。取决于模型的计算复杂度和硬件性能。

2024-05-01 10:33:42 3651 1

原创基于LoRA对codeLLama-34B全量微调实战

微调的含义，就是把已经训练好的模型拿来，给它吃特定的下游任务数据，使得模型在预训练权重上继续训练，直至满足下游任务性能标准。全量微调指的是，在下游任务的训练中，对预训练模型的每一个参数都做更新。例如图中，给出了Transformer的Q/K/V矩阵的全量微调示例，对每个矩阵来说，在微调时，其d*d个参数，都必须参与更新。

2024-04-30 22:25:59 1182

原创如何创建高质量的本地知识库增强大模型私域任务处理能力

受训练阶段和提问的表达方式等影响，大模型不能准确理解用户意图受训练数据和时效性影响，大模型无法回答领域知识，当我们需要了解除它们训练数据以外的具体知识时，往往会达不到要求对于第一个限制，开源基础模型的理解能力不断提升，例如已开源的qwen-72B刷榜各评测榜单，对使用者的提示能力要求进一步降低，且已有能力已满足多样性任务需求，适合直接部署使用。对于第二个限制，使用检索增强生成技术（RAG，Retrieval Augmented Generation）是目前一种经济可行的方案。

2024-04-30 21:25:22 4403 2