Made In Heaven，LLM要加速了

最新推荐文章于 2025-04-18 10:48:24 发布

吴脑的键客

最新推荐文章于 2025-04-18 10:48:24 发布

阅读量1.5k

点赞数 22

文章标签：人工智能 transformer

本文链接：https://blog.csdn.net/weixin_41446370/article/details/136415582

版权

作者尝试在Windows和Linux系统上使用Huggingface的FlashAttention2和vLLM的PageAttention进行模型加速，发现vLLM在Windows上表现较好，但在Linux上因GPU使用增加速度下降。文章探讨了未来AI模型训练和推理可能的趋势，暗示了更多算力选项的出现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

借鉴了荒木老师笔下的普奇神父的台词

玩LLM的多数用的是Huggingface框架，而它本身提供的是accelerate库来提升模型的训练推理速度。这些都离不开Nvidia 的 Cuda 计算，而目前适配这一驱动的只有Windows和Linux。于是我就尝试在这两个系统上进行加速实验，尝试Huggingface Doc中推荐的 Flash Attention 2以及 vLLM的 Page Attention。

原理参考

LM（十七）：从 FlashAttention 到 PagedAttention, 如何进一步优化 Attention 性能

Windows

显卡：RTX 2070
模型：Phi2

我首先尝试通过pip安装 flashattn, 结果发现需要git submodule，只好VPN和Proxy怼上去，一直卡在build状态。放弃后尝试git clone 源码，走 python setup.py install, 过程很坑，让我回想起被Gentoo支配的日子。一直没成功说rule有问题，难道是我的CUDA上12.4导致的，可是在Arch这里成功了。
既然WSL 2不行，我就尝试从TensorRT LLM的经验安装容器，一顿Ops，说WSL的cuda路径识别不了。（吐槽：当初忽悠我WSL有多好，方便Windows和Linux无差别生态，结果Blog几乎在2023年停止了，shit，我还要尝试很多底层，比如ebpf、wifi、蓝牙。。。）

最后用原生的 msvc 来build，和wsl一样。2070难道不是安倍架构吗？吐槽：微软为什么要集成在Visual Studio里，不能单独领出来。

换vllm走pip安装，顺利，速度明显，快了一倍。

建议windows尝试vllm加速。

Arch

显卡：RTX 4090
模型：zephyr-7b-beta

我首先尝试通过pip安装 flashattn, 结果发现需要git submodule，只好VPN和Proxy怼上去，一直卡在build状态。也放弃后尝试git clone 源码，走 python setup.py install, 直接顺利make，但是编译很慢。

用time库随便测试一下，快了一倍。

接着按照windows安装vllm（pip就可以了），也很顺利，就是运行报了

ValueError: The model's max seq len (32768) is larger than the maximum number of tokens that can be stored in KV cache (28912). Try increasing `gpu_memory_utilization` or decreasing `max_model_len` when initializing the engine.

搜 Bing，都是在Issue里提问，还是没有准确的答案。没办法，这种小问题，我只好看看源码，发现可以 gpu_memory_utilization（default）是0.9，我就试了1.0.运行就通过了。估计90%不够，用95%（0.95）也可以。

但是vllm在Linux上不算理想。这个模型速度变慢了，估计是GPU使用增加了导致的。但是在Phi 2上又加快，但貌似只有4%左右。

总之还是推荐用 Flash Attention 2。