![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大语言模型
文章平均质量分 95
大语言模型
邹中凡
这个作者很懒,什么都没留下…
展开
-
Ubuntu20.4部署Cuda12.4
Ubuntu 20.4上安装Cuda12.4原创 2024-05-12 12:20:08 · 1214 阅读 · 0 评论 -
vLLM初探
是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。在吞吐量方面,vLLM的性能比HuggingFace Transformers(HF)高出 24 倍,文本生成推理(TGI)高出3.5倍。是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。原创 2024-05-12 11:38:33 · 679 阅读 · 0 评论