Transformer相关资料
1、论文精读-Transformer(Attention is All You Need)
论文精读-Transformer(Attention is All You Need)
2、注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制
https://zhuanlan.zhihu.com/p/630832593
3、分析transformer模型的参数量、计算量、中间激活、KV cache
https://zhuanlan.zhihu.com/p/624740065
推理优化相关
1、大模型推理加速:看图学KV Cache
https://zhuanlan.zhihu.com/p/662498827
2、大模型推理性能优化之KV Cache解读
https://zhuanlan.zhihu.com/p/630832593
3、LLM(17):从 FlashAttention 到 PagedAttention, 如何进一步优化 Attention 性能
https://zhuanlan.zhihu.com/p/638468472
4、图解大模型计算加速系列之:vLLM核心技术PagedAttention原理
图解大模型计算加速系列之:vLLM核心技术PagedAttention原理-CSDN博客
智能化调度
1、LLM智能路由:提升LLM推理系统整体效率
使用LLM智能路由提升推理效率_人工智能平台 PAI(PAI)-阿里云帮助中心
2、scheduler 整体概览