Triton的雏形诞生于一张多年前的NVIDIA GeForce GTX1070显卡,尽管在高性能计算芯片层出不穷的今天,它的算力已经不再是行业翘楚,但Triton对于突破CUDA生态的雄心壮志从未减弱。
CUDA生态现状
不可否认,CUDA生态历经多年的大浪淘沙仍旧在高性能计算领域处于强大的优势地位,无论是领先的硬件架构和芯片算力、成熟完整的开发工具链、还是独占鳌头的市场占有率,都让它成为AI大模型行业的首选。而CUDA的竞争者们宥于开发成本、性能水平、硬件基础等诸多因素,也一直无法与CUDA匹敌。
后起的芯片厂商为了方便用户接纳和融入现有生态,往往会选择跟随CUDA来建设自己的软件工具,将CUDA的算子库、编译器、分析工具等移植到自研的AI芯片上,由此来鼓励用户方便地切换后端支持。然而CUDA的生态迁移需要克服以下诸多难题:
-
硬件编程接口限制:CUDA的整体设计基于NVIDIA GPU,与原生平台深度相关,替换芯片后端受到硬件差异的局限,需要专门的支持处理,或在功能性能上做出让步;
-
迁移任务繁重:CUDA上下游由一系列软件工具支持,厂商迁移工作量庞大,这要求众多的人力投入并带来冗长的开发周期;
-
性能追赶难度高:CUDA的高性能算子实现以NVIDIA GPU为基础和依赖,大量手写算子需要熟悉硬件和编译的专家针对自研平台深度优化,难以保证性能表现;
-
底层生态相互隔离:芯片厂商在算子库层次与CUDA对齐,而底层实现各具特点、各