开源大语言模型推荐和配置要求

背景

目前,大语言模型(LLM)已成为人工智能领域的研究热点,并在自然语言处理、机器翻译、对话系统、文本生成等领域展现出了强大的能力和潜力。在市场上,大语言模型的应用也日益广泛,包括搜索引擎、智能客服、语音助手等。随着大语言模型技术的不断发展和优化,其在各个领域的应用也将越来越广泛。

尽管大语言模型(LLM)具有巨大的潜力和能力,但其超大参数规模确实为许多人和企业带来了挑战。无论是模型的推理还是训练,都需要大量的计算资源和存储空间,这无疑增加了训练和运行模型的费用。此外,为了获得最佳效果,LLM通常需要大量优质的数据作为训练集,这对于许多中小型规模的企业来说是一个难以满足的要求。

然而,好消息是现在有许多开源的大语言模型可供选择。这些模型经过精心设计和优化,只需通过简单的参数微调或外挂知识库的集成,就能轻松地获得定制化的大模型。这为那些不具备强大计算资源和数据资源的企业和个人提供了一个绝佳的机会,让他们也能够体验并利用大语言模型的强大功能。
在这里插入图片描述

开源LLM

随着“百模大战”愈演愈烈,越来越多的国内公司发布了他们的LLM,其中更有一部分公司开源了他们较小规模的LLM,以下便是截止2024年2月4日较为优秀的部分开源模型。

模型名称企业上下文长度训练token参数规模
ChatGlm智谱8K/32K1.4T6B
Qwen阿里8K/32K3T1.8B/7B/14B/72B
LlamaFacebook4K2T7B/13B/70B
baichuan百川4K1.4T13B
Yi-32B零一万物4K3T6B/34B

以上主要贴出了上下文长度、训练token以及参数规模,也是博主认为跟模型效果密切相关的几项参数,由于训练token存在数据集的优质区别,因此个人感觉参数规模是体现LLM性能最核心的参考值了,其中B代表10亿,以chatgpt-3.5和chatgpt-4为例,参数规模分别为175B和600B,虽然以上企业的商业化LLM都称自己再某一单一领域能够比肩chatgpt,但真正体验过的才知道,chatgpt-4在几乎各个角度表现得都比它们做的更好,这也是我没有贴出各个开源模型评测表现的原因。

以上LLM参数规模从1.8B至72B不等,具体选用可以根据自己的实际需求,毕竟参数规模越大算力成本越高,个人或小规模使用能省则省。

  • 小规模使用首推chatglm-6B,应用场景例如对话内容范围比较小且固定的智能客服、流程引导等等
  • 想要LLM具备足够的逻辑和推理能力,且有通用知识储备,可以选用零一万物的Yi-32B或阿里的Qwen-72B,但准备足够的算力资源才能运行,适合某一行业垂直领域业务的使用,例如智能出题。

配置评估

无论是对开源的LLM直接部署进行模型推理还是进一步的模型微调,都需要足够的算力资源,也不是日常所使用的个人PC或普通服务器能够支撑的,在选用好合适的开源LLM模型后,便是采购或租赁合适的GPU服务器,这就需要对各个LLM模型所需配置的评估。

基本概念

在评估模型首先了解一下一些基本概念

  • 模型参数单位,6B、13B、72B等术语通常指的是大型神经网络模型的参数数量,其中B为billion,也就是10亿,每个参数用来存储模型的权重和偏差等信息。
  • 模型参数精度,是指参数的数据类型,它决定了模型在内存中存储和计算参数时所使用的位数。常见的有单精度浮点数float32,半精度浮点数float16等,用更高精度的数据类型可以提供更高的数值精度,但会占用更多的内存并可能导致计算速度变慢。
  • 模型量化,一种模型压缩技术,通过将浮点数参数映射到较低位数的整数,从而在一定程度上降低了模型的计算和存储成本。默认情况下,LLM均以 FP16 精度加载,若能利用 GPU 显存有限,可以尝试以量化方式加载模型,常见得量化方式有INT4和INT8,模型量化会带来一定的性能损失。

推理显存

模型推理的显存消耗主要来源于模型加载,即将LLM中所有权重参数和偏差参数加载至显存中,以chatglm-6b为例计算模型推理需要的内存:
6 ∗ 1 0 9 ∗ 2 / 102 4 3 ≈ 12 G B 6*10^9*2/1024^3\approx12GB 61092/1024312GB

参数数量*每个参数字节数(float16位2个字节),然后转换为GB,最终得到12GB,略小于官方推荐的13GB,因为模型推理会产生中间结果,中间结果也会占用一定的显存。

模型训练

训练训练通常比模型推理要求更多的显存,因为涉及梯度计算和参数更新等大量计算,模型训练与以下因素相关:

  • 模型参数规模,包含模型参数量和参数数据类型
  • 训练数据token
  • 模型训练batchsize
  • 优化器

模型的全量参数训练往往需要模型推理的3倍左右的显存大小,以上开源LLM均提供了LoRA微调的方式,仅对模型的部分参数进行训练,显存消耗大大降低,一般仅为模型推理的1.5倍。

常用LLM配置和快速评估

一般开源LLM默认都已fp16的方式进行运行,基于该情况,推荐的服务器配置如下:

在这里插入代码片ChatGLM3-6B & LLaMA-7B-Chat 等 7B模型
# 最低显存要求: 14GB
# 推荐显卡: RTX 4080
Qwen-14B-Chat 等 14B模型
# 最低显存要求: 30GB
# 推荐显卡: V100
Yi-34B-Chat 等 34B模型
# 最低显存要求: 69GB
# 推荐显卡: A100
Qwen-72B-Chat 等 72B模型
# 最低显存要求: 145GB
# 推荐显卡:多卡 A100 以上

一种简单的估算方式为:

FP16: 显存占用(GB) = 模型量级 x 2 
Int4: 显存占用(GB) = 模型量级 x 0.75

以上数据仅为估算,实际情况以 nvidia-smi 占用为准。 请注意,如果使用最低配置,仅能保证代码能够运行,但运行速度较慢,体验不佳。

总结

可以看到,现有开源的LLM模型所需显存从几个GB到几百GB不等。对于小型LLM模型,可能仅需2GB显存,适合在个人PC上运行;而大型LLM模型可能需要更高的显存,这时可能需要多卡并行计算才能启动。在选择合适的LLM模型时,请根据您的实际配置情况和需求进行选择,确保所选模型与您的硬件资源相匹配。

关注alpha-soso,获取更多人工智能内容!

参考链接

chatglm开源项目
通义千问开源项目
百川开源项目
Llama开源项目
Yi-34B开源项目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值