AI相关资料链接

Transformer相关资料

1、论文精读-Transformer(Attention is All You Need)

论文精读-Transformer(Attention is All You Need)

2、注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制

https://zhuanlan.zhihu.com/p/630832593

3、分析transformer模型的参数量、计算量、中间激活、KV cache

https://zhuanlan.zhihu.com/p/624740065

推理优化相关

1、大模型推理加速:看图学KV Cache

https://zhuanlan.zhihu.com/p/662498827

2、大模型推理性能优化之KV Cache解读

https://zhuanlan.zhihu.com/p/630832593

3、LLM(17):从 FlashAttention 到 PagedAttention, 如何进一步优化 Attention 性能

https://zhuanlan.zhihu.com/p/638468472

4、图解大模型计算加速系列之:vLLM核心技术PagedAttention原理

图解大模型计算加速系列之:vLLM核心技术PagedAttention原理-CSDN博客

智能化调度

1、LLM智能路由:提升LLM推理系统整体效率

使用LLM智能路由提升推理效率_人工智能平台 PAI(PAI)-阿里云帮助中心

2、scheduler 整体概览

Awesome-ML-SYS-Tutorial/sglang/sglang-scheduler/readme-CN.md at main · zhaochenyang20/Awesome-ML-SYS-Tutorial · GitHub

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值