大模型常见术语解释:
1. 参数规模(7B、14B等)
- 定义:模型的参数(Parameters)是内部权重,决定其处理数据的能力。“B”代表十亿(Billion)。例如:
- 7B:70亿参数,适合中等任务(文本生成、表格处理)。
- 14B:140亿参数,适合复杂任务(数学推理、长文本生成)。
- 671B:6710亿参数,用于国家级科研任务(如气候建模)。
- 规律:参数越多,模型能力越强,但对硬件要求(显存、算力)越高。例如,70B模型需多张A100显卡,而1.5B模型可在普通CPU上运行。
2. 量化技术(3-bit、4-bit等)
- 定义:量化通过降低参数精度压缩模型,常用格式:
- FP32(32位浮点):4字节/参数,适合训练。
- FP16/BF16(16位浮点):2字节/参数,适合推理。
- Int8(8位整数):1字节/参数,精度损失低。
- Int4(4位整数):0.5字节/参数,内存占用极低但精度损失显著。
- 实际应用:
- 3-bit(如Q3_K_M):速度快、内存低,适合低配设备。
- 4-bit(如Q4_K_S):平衡速度与精度。
- 影响:量化降低硬件门槛。例如,7B模型从FP32(28GB)量化到Int4仅需约3.5GB显存。
3. 其他核心概念
- Token:模型处理的最小单位(如一个汉字、英文单词或标点)。例如,“你好!”拆分为3个token。
- 上下文(Context Window):模型处理对话时参考的连续文本范围。长上下文模型(如Qwen)更擅长理解长文本逻辑。
- 多模态(Multimodal):支持文本、图像、音频等多类型数据处理。例如GPT-4支持图文输入。
- 温度(Temperature):控制生成文本的随机性。温度高则结果多样,温度低则更保守。
4. 模型架构对比(Qwen vs. Llama)
- Qwen(通义千问):阿里巴巴开发,针对中文优化,支持长上下文,适合中文NLP任务。
- Llama:Meta开发,侧重英文任务,优化稀疏注意力机制,适合通用场景。
5. 硬件需求示例
- 1.5B:移动设备基础问答(4核CPU、8G内存,无需显卡)。
- 7B:文案撰写、数据分析(RTX 3060,12GB显存)。
- 14B:复杂推理、代码生成(RTX 4090,24GB显存)。
- 70B:科研级任务(需8张A100显卡)。