near data processing
文章平均质量分 90
简vae
这个作者很懒,什么都没留下…
展开
-
Quantitative Analysis: PIM Chip Demands for LLAMA-7B inference
在decode过程,推理出一个token的时延 = bank内并行访存(GEMV)的时延 + Controler-bank 通信的时延 + Controler 内访存(softmax、Norm 和 reduction 等)的时延。定量分析decode过程,也就可以分析出在给定访存带宽下,模型推理的速度。bank内并行访存(GEMV)的时延包含两部分:模型参数相关的GEMV的时延和kv cache相关的GEMV的时延。在decode阶段,Controller和bank内的算力均可以吃满访存带宽。原创 2024-02-17 14:36:26 · 1409 阅读 · 0 评论 -
Benchmarking PIM-attention: A Puncture Experiment on a Real Processing-in-Memory Architecture
大语言模型(LLM)的高吞吐量服务需要一次批处理足够多的请求。然而,现有的推理系统面临着巨大的挑战。一方面,每个请求的键值缓存(KV cache)占用大量的内存,而且会动态增长和收缩,显存容量不足限制了批处理的大小;另一方面,attention算法中大量使用访存密集型的GEMV算子,显存带宽成为了系统瓶颈。为了解决这个问题,我们提出了PIM-attention。PIM提供了更大的内存容量和bank级并行的访存带宽,为加速attention算子提供了机遇。原创 2024-02-17 14:22:27 · 801 阅读 · 1 评论 -
AiM architecture defects
然而,目前广泛使用的加速器是英伟达的通用加速器GPU。GPU是以计算为中心的架构,使用SIMT掩盖访存开销。对于GEMM算子,GPU打不过TPU;对于GEMV算子,GPU打不过AiM。但是,GPU有很强的通用性,加上完善的生态,它可以很好地完成各种算子(不论是计算密集性算子还是访存密集型算子)。从加速器通用性角度看,AiM与TPU类似,两者都是十分专用的加速器。TPU使用脉冲阵列加速计算密集性算子GEMM;AiM使用存算架构加速访存密集型算子GEMV。是一个专门用于加速GEMV算子的加速器。原创 2024-01-11 14:14:16 · 408 阅读 · 0 评论 -
upmem-hashtable
本文设计了针对upmem优化的hashtable。原创 2022-09-18 16:43:09 · 668 阅读 · 0 评论