![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大模型知识库创建实战
文章平均质量分 91
随着大模型能力的增强,大模型赋能千行百业已经成为一种趋势,虽然网上有很多相关介绍资料,但大多是大模型+知识库的流程性介绍,很少能够与具体的领域需求相结合,讲解大模型如何高效解决私域问题,特别是涉及信息安全的领域,如何将私域知识注入大模型是一项非常具有挑战的工作。本专栏聚焦实战解决私域部署和应用问题。
青春已度雁门关
软件大厂10多年软件开发经验
展开
-
Window CPU环境本地部署ChatGLM3-6B模型
在window CPU环境部署chatGLM3-6B大模型原创 2024-05-03 21:48:43 · 141 阅读 · 0 评论 -
大模型训练资源评估
卡间通信延长对训练时长的影响未有明确测算公式,根据现有实例推测:H800相对于H100也仅有卡间通信速率的下降(约50%),其在执行训练任务时,H800消耗比H100多10%-30%的时间。激活值所消耗的额外显存随batchsize的大小而增加,在batchsize较大时,此部分额外显存消耗远远大于模型参数的消耗,采用激活重计算技术可将中间激活显存从O(n)减少到O(√n)。从官方给出的技术规格上来看,在模型训练中最关注的显存与算力参数完全一致,80GB版本GPU显存带宽一致。原创 2024-05-01 10:45:55 · 383 阅读 · 0 评论 -
大模型推理资源评估方法
由于1、模型容量限制可能不足支撑专业分析任务 2、代码类的模型往往具有更大的参数量, 也对当前开源的34B与70B模型的部署进行了硬件资源需求评估。对于该模型的开发阶段,考虑微调的情况(显存消耗约为推理的3倍:12.64×3=37.92GB),需要大约1块A100/A800(40GB)或 2块V100(32GB)。模型在推理时的空转显存占用约70GB,大约需要2张A100/A800(40GB)显卡 或 1张A100/A800(80GB)或 3张V100(32GB)显卡。取决于模型的计算复杂度和硬件性能。原创 2024-05-01 10:33:42 · 246 阅读 · 0 评论 -
基于LoRA对codeLLama-34B全量微调实战
微调的含义,就是把已经训练好的模型拿来,给它吃特定的下游任务数据,使得模型在预训练权重上继续训练,直至满足下游任务性能标准。全量微调指的是,在下游任务的训练中,对预训练模型的每一个参数都做更新。例如图中,给出了Transformer的Q/K/V矩阵的全量微调示例,对每个矩阵来说,在微调时,其d*d个参数,都必须参与更新。原创 2024-04-30 22:25:59 · 588 阅读 · 0 评论 -
如何创建高质量的本地知识库增强大模型私域任务处理能力
受训练阶段和提问的表达方式等影响,大模型不能准确理解用户意图受训练数据和时效性影响,大模型无法回答领域知识,当我们需要了解除它们训练数据以外的具体知识时,往往会达不到要求对于第一个限制,开源基础模型的理解能力不断提升,例如已开源的qwen-72B刷榜各评测榜单,对使用者的提示能力要求进一步降低,且已有能力已满足多样性任务需求,适合直接部署使用。对于第二个限制,使用检索增强生成技术(RAG,Retrieval Augmented Generation)是目前一种经济可行的方案。原创 2024-04-30 21:25:22 · 919 阅读 · 2 评论