LLM
文章平均质量分 66
滋小麦麦
这个作者很懒,什么都没留下…
展开
-
如何运行Distserve
本文旨在搭建distserve docker镜像,并运行offline exmaple和server模式。原创 2024-10-09 19:37:19 · 190 阅读 · 0 评论 -
Splitwise: Efficient Generative LLM Inference Using Phase Splitting
—生成式大型语言模型(LLM)应用正在快速增长,导致大规模部署昂贵且耗电的GPU。我们对LLM推理的特性进行了研究,发现每个推理请求都会经历两个阶段:计算密集型的提示计算(prompt computation / profilling)阶段和内存密集型的生成(token generation / decoding)阶段。每个阶段在延迟、吞吐量、内存和功耗方面都有不同的特性。尽管有最先进的批处理和调度技术,生成阶段的计算资源利用率仍然较低。原创 2024-09-10 22:04:45 · 484 阅读 · 0 评论