![](https://img-blog.csdnimg.cn/direct/208f709dc52c4307ae3832d7f19a783c.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
分布式训练
文章平均质量分 74
大模型之分布式训练
山顶夕景
实践出真知
展开
-
【智源大会2024】(一)智源技术专题
1.千万级数据集: BAAI创建了首个千万级别的高质量开源指令微调数据集。2.模型性能与数据质量: 强调了模型性能与数据质量之间的高度相关性。3.技术亮点: - 使用了高质量的指令数据筛选与合成技术。 - 这些技术显著提升了模型遵循指令的能力。4.性能比较: - 提到综合性能达到了GPT-4的水平。 - 1000条高质量数据微调的效果可以超过52,000条普通数据。5.数据集评估: - 使用了AlpacaEval和MT-Bench等评估工具来筛选数据。原创 2024-06-15 11:03:34 · 301 阅读 · 0 评论 -
【LLM硬件】V100、A100、A800、H100参数对比
NVIDIA GPU 的核心参数:CUDA Core:CUDA Core 是 NVIDIA GPU上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。Tensor Core:Tensor Core 是 NVIDIA Volta 架构及其后续架构(如Ampere架构)中引入的一种特殊计算单元。它们专门用于原创 2024-04-27 14:17:55 · 649 阅读 · 2 评论 -
解决nvidia-smi无进程,但GPU显存被占用的情况
# 一、问题描述如题,解决nvidia-smi无进程,但GPU显存被占用的情况。# 二、解决方案```python# 查看没有显示出来的进程fuser -v /dev/nvidia*# Kill掉sudo kill -9 pid```如果要`kill`的进程特别多,可以用以下的python脚本:```pythonimport ospid = list(set(os.popen('fuser -v /dev/nvidia*').read().split()))kill_cmd =原创 2024-03-24 10:35:44 · 738 阅读 · 1 评论 -
【LLM加速】注意力优化(基于位置/内容的稀疏注意力 | flashattention)
note(1)近似注意力:Routing Transformer采用K-means 聚类方法,针对Query和Key进行聚类,类中心向量集合为 其中k 是类中心的个数。每个Query 只与其处在相同簇 (Cluster) 下的Key 进行交互。Reformer 则采用局部敏感哈希 (Local-Sensitive Hashing,LSH) 的方法为每个Query 选择Key-Value 对。其主要思想是使用LSH 函数对原创 2024-03-16 17:15:49 · 1245 阅读 · 0 评论 -
【Pytorch基础教程41】DeepSpeed分布式训练框架
在 DeepSpeed 中,可以通过在配置文件中设置 “bf16.enabled”: true 来启用 BF16 混合精度训练,减少占用内存。混合精度训练是指在训练过程中同时使用FP16(半精度浮点数)和FP32(单精度浮点数)两种精度的技术。deepspeed可以根据具体情况选择合适的通信库,例如在 CPU 集群上进行分布式训练,可以选择 mpi 和 gloo;如果是在 GPU 上进行分布式训练,可以选择 nccl。mpi 是一种跨节点通信库,常用于 CPU 集群上的分布式训练;gloo 是一种高原创 2023-07-10 12:29:53 · 8704 阅读 · 5 评论 -
【LLM工程篇】deepspeed | Megatron-LM | fasttransformer
当前比较主流的一些分布式计算框架 DeepSpeed、Megatron 等,都在降低显存方面做了很多优化工作,比如:量化、模型切分、混合精度计算、Memory Offload 等文章目录note大模型参数计算1. 模型参数单位2. 训练显存计算3. 推理显存计算大模型的分布式训练1. 数据并行2. 模型并行3. 流水并行4. 混合并行模型量化DeepSpeed ZeRO:零冗余优化DeepSpeed Chatfastertransformer:LLM推理加速引擎Megatro原创 2023-09-19 00:24:34 · 3885 阅读 · 0 评论