ChatGLM、Baichuan、LLama、Vicuna、Gemini、Qwen2.5对比总结

ChatGLM2-6B相对于ChatGLM1-6B(GLM)的重要改进点

  • 使用了Flash Attention将Context Length由ChatGLM的2k扩展到了32k
  • 使用Multi-Query Attention大幅提高了模型的推理速度
  • 使用了混合目标函数,该目标函数在ChatGLM中已经提出来了,但当时效果不好。ChatGLM2加入了Document-level Masking和Sentece-level Masking
  • 仓库中提供了友好的P-tuning代码,fine-tuning模型非常方便

这部分转载自 https://www.zhihu.com/question/608732789/answer/3141379386

Vicuna相比LLaMA1的改进点

Vicuna是LLama经过Instruction Fine Tune的版本。

Instruction Fine Tune和Prompt Engineer的区别

IFT involves actually training the model by changing its weights. The LLM’s weights are not changed in prompt Engineer

部分转载自 https://community.deeplearning.ai/t/confusion-between-instruction-fine-tuning-vs-prompt-engineering/491824

LLama1相比GPT2的改进

  • 首次引入RMSNorm层​(去均值计算的LayerNorm变体)替代传统LayerNorm,提升计算效率,RMSNorm使用PreNorm更多
  • 采用SwiGLU激活函数替代ReLU,增强非线性表达能力
  • ​RoPE旋转位置编码突破传统绝对位置编码限制,支持长序列建模

LLama2相比LLama1的改进

  • 模型结构基本和llama一样,transformer decoder结构,RMSNorm 应用预归一化、使用 SwiGLU 激活函数和旋转位置嵌入RoPE。
  • 上下文长度是由之前的2048升级到4096,可以理解和生成更长的文本。
  • 7B和13B 使用与 LLaMA 相同的架构,34B和70B模型采用分组查询注意力(GQA)。For speed up decoding! 自回归解码的标准做法(past key-value 机制)是缓存序列中先前标记的k,v矩阵,从而加快注意力计算速度。但上下文长度、批量大小、模型大小较大时,多头注意力(MHA)中的kv缓存无疑巨大。所以采用分组查询注意力机制(GQA)可以提高大模型的推理可扩展性。它的工作原理是将键和值投影在多个头之间共享,而不会大幅降低性能。可以使用具有单个KV投影的原始多查询格式(MQA)或具有8KV投影的分组查询注意力变体(GQA)

Llama3相比LLama2的改进

  • 全面采用GQA机制(覆盖8B/70B所有版本),推理速度提升30%
  • ​128K超大规模词汇表​(LLama1/2为32K),压缩率提升15%,支持30+语言
  • 引入动态掩码技术,确保8K上下文窗口的跨文档处理安全性

Gemini

实际上就是把text、audio、vision全部tokenizer,再过transformer的思路,以下来自于Gemini: A Family of Highly Capable Multimodal Models,
在这里插入图片描述

Qwen2.5的改进

  • RoPE面临“外推问题”,Qwen2.5使用ABF(Adjustable Base Frequency)技术调整RoPE中的基频(base frequency),即旋转角度的底数,来增强模型在长上下文中的表现。具体来说,将基频从10000增加到500000,可以缩小RoPE对远端token信息的衰减效应。
  • 另外,Qwen2.5使用两个关键策略:YARN和DCA(Dual Chunk Attention)解决长序列在推理时遇到的困难。在处理长上下文问题时,YARN(Yet Another RoPE eXtension)和DCA(Dynamic Context Adjustment)是两种重要的技术,它们各自采用不同的方法来提高大型语言模型(LLM)在长文本处理中的性能。
  • YARN采用“按部分”插值策略,在嵌入空间的不同维度上进行操作,并引入温度因子来调整长输入的注意力分布。这种方法使得模型在处理长文本时能够保持较高的性能。DCA(Dynamic Context Adjustment)是一种动态调整上下文的方法,旨在进一步优化模型在处理长文本时的表现。DCA结合了自回归技术和位置信息,通过动态生成上下文表示来增强模型对长文本的理解能力。这使得模型在面对复杂任务时能够保持较高的性能。
<think>好的,我现在需要回答用户关于Qwen2.5-72B模型运行所需的显存要求的问题。首先,我应该先回顾一下用户提供的引用内容,看看有没有直接相关的信息。 在用户提供的引用中,引用[1]提到了Qwen2.5-7B-Instruct-GPTQ-Int4模型在不优化显存的情况下大约占用17G的vRAM。引用[3]则推荐了Qwen-14B-ChatBaichuan2-13B-Chat等模型,并提到了显存优化的可能性。但用户问的是72B版本,这些引用里没有直接的数据。 接下来,我需要根据一般的LLM显存计算方法来估算。通常,模型参数所需的显存主要取决于参数数量精度。比如,FP32精度下每个参数占4字节,FP16/BF16占2字节,而INT8占1字节,INT4占0.5字节。 假设Qwen2.5-72B使用FP16精度,那么显存需求大约是72B * 2字节 = 144GB。但实际中,模型可能经过量化处理,比如使用GPTQ-Int4,这样显存需求会降低到72B * 0.5字节 = 36GB。不过,实际运行时还需要考虑激活值、中间结果等额外开销,通常需要在此基础上增加20%-30%的显存。例如,36GB加上30%就是约47GB左右。 另外,用户提供的例子中7B模型使用INT4量化后占17GB,那72B大约是7B的10倍多,如果按比例计算的话,17GB * 10.28 ≈ 174.8GB,但这显然不符合量化后的结果,说明例子中的7B模型可能还有其他因素,比如上下文长度或其他优化技术的影响。因此,可能需要更准确的估算方法。 还要注意,不同的库优化技术(如FlashAttention、量化方法)会影响显存占用。例如,使用模型并行或张量并行技术可以分散显存到多个GPU上。用户可能想知道单卡或多卡的需求,但问题中没有明确说明,所以需要假设两种情况。 总结起来,我应该给出基于参数精度的估算,并提到影响因素如量化、优化技术以及多GPU的可能性,同时引用现有信息中的相关部分作为参考,比如7B模型的数据作为对比,并建议查阅官方文档或社区资源以获取准确数据。</think>关于Qwen2.5-72B模型的显存需求,我们可以通过以下步骤进行估算分析: ### 1. 基础显存计算公式 模型显存需求主要由以下因素决定: $$ \text{显存} \approx \text{参数量} \times \text{数据精度字节数} + \text{激活值显存} $$ 对于Qwen2.5-72B: - 基础参数:720亿(72B)参数 - 不同精度下的理论需求: - FP32精度:$72 \times 10^9 \times 4\text{字节} = 288\text{GB}$ - FP16/BF16:$72 \times 10^9 \times 2\text{字节} = 144\text{GB}$ - Int8量化:$72 \times 10^9 \times 1\text{字节} = 72\text{GB}$ - Int4量化:$72 \times 10^9 \times 0.5\text{字节} = 36\text{GB}$[^1] ### 2. 实际运行需求 考虑激活值(activations)中间计算结果,通常需要额外增加20%-30%显存: - FP16场景:$144\text{GB} \times 1.3 \approx 187\text{GB}$ - Int4量化场景:$36\text{GB} \times 1.3 \approx 47\text{GB}$ ### 3. 实际部署考量 根据已有信息(参考7B版本): - Qwen2.5-7B的Int4量化版本显存占用约17GB[^1] - 按参数比例推算72B版本: $$ 17\text{GB} \times \frac{72}{7} \approx 174.8\text{GB} $$ 但实际通过优化技术(如FlashAttention、梯度检查点等),显存需求可显著降低。根据行业经验,72B模型在合理优化后: - FP16精度需要至少$8 \times 80\text{GB}$ A100/H100显卡(多卡并行) - Int4量化版本可能单卡运行(需48GB显存级显卡) ### 4. 推荐配置 | 场景 | 显存需求 | 硬件建议 | |----------------|--------------------|--------------------------| | 推理(FP16) | 160-180GB | 2x A100 80GB或H100 80GB | | 推理(Int4) | 45-50GB | RTX 6000 Ada/A100 80GB | | 全参数微调 | 720GB+ | 8x H100 80GB NVLink集群 | ### 5. 显存优化建议 - 使用量化技术(GPTQ、GGUF格式)[^2] - 启用FlashAttention加速 - 采用模型并行策略 - 使用PagedAttention管理显存
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值