- 博客(1)
- 收藏
- 关注
原创 vllm学习笔记
因为最近需要学习vllm的原因,准备从vllm实现mamba的代码看起,学习page attention,rms norm等一些量化和加速方法,争取可以用mamba的方法搓出来一个linear attention。这样的好处就是几乎不会有碎片化的内存被浪费,并且不用提前申请一大块内存,可以一边自回归,一边储存。自回归transformer中kv不需要重复计算,因为casual mask的出现,当前q只需要和之前token的kv相乘,所以需要把之前的k和v储存下来减少运算量,这就是kv cache。
2025-05-10 11:38:20
1253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅