gdhsss-CSDN博客

原创 vllm学习笔记

因为最近需要学习vllm的原因，准备从vllm实现mamba的代码看起，学习page attention，rms norm等一些量化和加速方法，争取可以用mamba的方法搓出来一个linear attention。这样的好处就是几乎不会有碎片化的内存被浪费，并且不用提前申请一大块内存，可以一边自回归，一边储存。自回归transformer中kv不需要重复计算，因为casual mask的出现，当前q只需要和之前token的kv相乘，所以需要把之前的k和v储存下来减少运算量，这就是kv cache。

2025-05-10 11:38:20 1253

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人