
Decoding Attention-LLM推理优化
目前在大部分推理Decoding场景下,性能都优于Flash Attention和Flash Attention v2,此外Decoding Attention还支持GQA(Group Query Attention)/ MQA(Multi Query Attention)和ALiBi(Attention with Linear Biases)推理场景。代码开源在flash_attention_inference。
LLM推理
CUDA Kernel优化
Nvidia Tensor Core
Nvidia GPU显存管理
Nvidia GPU云基础设施 
