
人工智能框架
文章平均质量分 73
爱串门的小马驹
ai分布式,通信,大模型,人工智能框架,大规模集群学习分享,不定期更新
展开
-
VLLM推理框架PagedAttention出现的原因 核心思想 视频教程 加速大语言模型推理过程,提升推理速度,减少key value缓存和重复计算
利用分页/分块存储的思想,将一个长序列的key vlaue缓存,分成多个块进行存储。解决tokens序列长度未知,动态变化,连续存储的问题。降低显存占用,提升并行处理的序列数量,提高处理速度。 1.1 VLLM pageattention出现的原因 推理框架 Efficient Memory Management for Large Language_哔哩哔哩_bilibili1.2 Paged Attention VLLM核心思想 原理 推理框架_哔哩哔哩_bilibiliVLLM pagedattent原创 2024-05-03 10:16:39 · 615 阅读 · 0 评论 -
DeepSpeed和Megatron如何调用NCCL通信后端源码解读
原本准备看一下DeepSpeed如何对接使用NCCL的,如何初始化通信后端的,没想到。瞬间傻在原地。原创 2024-05-10 20:29:27 · 1895 阅读 · 0 评论