Triton中国社区-CSDN博客

原创龙蜥社区成立“智算基础设施”联盟，牵手FlagOS社区打造AI开源新基座

8月7日，龙蜥智算基础设施联盟在2025开放计算技术大会上正式成立。该联盟由龙蜥社区牵头，联合阿里云、浪潮信息等产业链领军企业及清华大学等高校共同发起，旨在推动AI原生操作系统发展，构建开放兼容的AI生态体系。

2025-08-08 11:24:44 326

原创大模型自动迁移发版平台 FlagRelease 双周报（2025.6.23-7.04）

FlagRelease大模型迁移平台成功适配3个新模型至昇腾、沐曦芯片，累计完成10+主流模型在10+硬件架构的迁移。智源与魔乐社区联合举办"2025全国高性能云计算创新大赛-AI应用打榜赛"，提供免费算力及20万元奖金池，邀请开发者基于这些硬件平台开发AI应用。报名通道已开启，欢迎参赛者报名挑战。

2025-07-09 13:57:26 130

原创智源开源FlagOS升级：首次实现DeepSeek-R1满血版多种芯片高效快速部署

基于面向大模型、支持多种AI芯片的开源统一软硬件技术栈FlagOS，智源研究院联合多个芯片厂商一同开发并开源了DeepSeek-R1多芯片版本，旨在推动大模型在不同芯片的适配应用，打破生态墙和算力束缚，构建多元芯片的统一技术栈和开源软硬件生态。

2025-02-25 15:15:45 1086

原创 Triton生态 | 突破CUDA束缚，拥抱开放与多元的未来

直至今天，Triton已然走出了NVIDIA GPU的舒适区，连接起了更多不同的后端，除了设计相似的GPGPU，也有架构迥异的DSA芯片在拓展对Triton的支持，甚至在CPU、RISC-V领域也开启了迁移的探索。不可否认，CUDA生态历经多年的大浪淘沙仍旧在高性能计算领域处于强大的优势地位，无论是领先的硬件架构和芯片算力、成熟完整的开发工具链、还是独占鳌头的市场占有率，都让它成为AI大模型行业的首选。在过去的多年来，行业巨头固然带来了重要的技术突破，为AI大模型的里程碑式发展做出了不可磨灭的贡献；

2025-01-16 09:50:02 869

原创项目动态｜2024 Q4 FlagGems 研发进展

FlagGems 是由北京智源人工智能研究院于 2024 年 6 月推出的面向多种 AI 芯片的开源大模型通用算子库。2024 年第四季度，FlagGems 仍处于高速迭代升级过程中。

2025-01-10 17:02:38 565

原创 Triton中国社区英雄榜 | 杰出贡献者证书颁发仪式

在Triton中国社区的每一个角落，都有着这样一群人，他们以代码为笔，以创新为墨，绘制着社区发展的宏伟蓝图。为了向这些默默无闻却又至关重要的贡献者们致以最深切的敬意，我们近期组织了一场别开生面的贡献者证书/奖项颁发仪式。

2025-01-10 16:56:12 780

原创智源发布异构统一通信库FlagCX，填补多元算力开源软件栈重要拼图

智源研究院联合生态合作伙伴，构建并开源异构统一通信库FlagCX，旨在实现不同芯片之间高效通信和不同场景下的大规模自适应通信优化，填补多元算力开源软件栈的重要版图。

2025-01-02 17:39:11 902

原创智源研究院与安谋科技达成战略合作，共建开源AI“芯”生态

12月25日，智源研究院与安谋科技（中国）有限公司（以下简称“安谋科技”）正式签署战略合作协议，双方将面向多元AI芯片领域开展算子库优化与适配、编译器与工具链支持、生态系统建设与推广等一系列深入合作，共同打造基于Arm架构的开源技术生态体系，赋能国内大模型与人工智能产业的高速发展。

2024-12-26 11:26:26 324

原创智源研究院与浪潮信息、北京开源芯片研究院达成战略合作，共筑多元AI芯片开源生态

2024年12月25日，智源研究院与浪潮电子信息产业股份有限公司、北京开源芯片研究院分别达成战略合作协议，共同打造基于Triton算子库的面向多元AI芯片的开源技术生态体系，赋能大模型与人工智能产业发展。

2024-12-26 11:25:38 340

原创活动报名｜AI系统创新研讨会-多元芯片的系统软件生态共建

智源研究院和浪潮信息将于12月25日（星期三）下午组织召开AI系统创新研讨会，共同探讨在大模型高速发展时期，如何构建多元AI算力芯片架构，共建全栈软件生态，助力AI技术和产业的发展和进步。

2024-12-23 16:21:15 274

转载 Triton 入门实践 | Triton 调优实战

Triton 的 Python API 里除了 triton.jit 还有 triton.autotune，triton heuristics，triton.Config 等接口用于调优以生成性能更好的 kernel

2024-12-17 17:33:37 1684

原创 Triton入门实践 | 算子性能优化：自动调优的艺术

Triton 以其低门槛开发和抽象的硬件细节处理，成为开发者的优选。对于渴望参与 Triton 开源社区建设的开发者来说，优化 Triton 算子是一条理想的路径。优化后的 Triton 算子性能有望匹敌甚至超越 PyTorch 的原生实现。正如古人云：“工欲善其事，必先利其器”，本文将介绍 Triton 算子优化的利器——自动调优（autotune）。

2024-12-13 11:46:32 2255

原创社区活动 | Triton中国社区贡献者茶话会圆满落地

11月30日周六下午，Triton中国社区的成员们齐聚一堂，参与了一场特别的茶话会。这场活动不仅是对开源社区贡献者辛勤工作的感谢，也是对未来发展方向的深入探讨.。

2024-12-11 17:49:41 472

原创 Triton 入门指南 | isin算子性能优化

Triton 面向的是数据块编程，屏蔽了大多数硬件细节，降低了开发门槛。开发人员可以专注于数据块划分和算法设计。通过合理的算法设计，Triton 实现的算子完全有可能在性能上超越 pytorch 中的 cuda 实现。

2024-11-18 15:14:38 1592

原创 Triton入门指南｜Triton DSL的特点与类型

Triton官方将其DSL语法表达体系称为 triton.language（https://triton-lang.org/main/python-api/triton.language.html），是一种依托于python环境的DSL，从该命名中的“language”中不难窥见，Triton团队想用自成一派的语言(language)对面向GPU的编程模型进行独特的表达，在Triton中，DSL由各种基本的操作或函数组成，它们直接映射到GPU的硬件功能，从而实现高效执行。

2024-10-29 10:00:30 1553

原创 Triton中国社区正式启动开发者贡献计划

Triton中国社区贡献者招募计划启动！点击了解详情进行报名

2024-10-24 09:59:15 562

原创活动回顾｜Triton&vLLM WorkShop

智源人工智能研究院于10 月 17 日下午，在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上，成功举行了Triton&vLLM联合WorkShop。

2024-10-24 09:57:34 1138

转载活动报名 | Triton &vLLM联合WorkShop重磅来袭

Triton &vLLM联合WorkShop重磅来袭，点击文章立即报名！

2024-10-12 12:26:08 233

转载解锁FlagGems：Triton算子库的快速入门与贡献指南

FlagGems 使用 pre-commit（https://pre-commit.com）的 git hooks 格式化源代码，在调用 git commit 命令时进行代码静态检查，并且 pre-commit 测试也是 CI 的一部分，不通过检查的 Pull Request 不能被提交到 FlagGems。打开 FlagGems GitHub 首页（https://github.com/FlagOpen/FlagGems），单击 Fork 按钮创建一个仓库副本。

2024-10-09 13:08:18 1188

转载 PyTorch Conference 2024大会概况及FlagGems/FlagAttention算子库亮相

因此，本届 PyTorch 大会所宣讲的绝大多数内容都或多或少涉及大模型的训练、微调、对齐、推理、量化、部署、评测、数据、结构细节、底层编译优化等关键话题，以及整个 PyTorch 生态社群在过去一年中与之相关的努力。本届的例行报告本身包含五个部分，其中最后三个分别对应 PyTorch 官方今年新推出的三个原生大模型库：用于大规模预训练的 TorchTitan、用于大模型微调的 TorchTune、用于大模型端侧部署推理的 TorchChat。大会为过去一年中 PyTorch 社区的杰出贡献者颁发了奖项。

2024-10-09 12:47:25 557

转载开启大模型时代新纪元：Triton的演变与影响力

而相比更底层的CUDA C甚至PTX、SASS等，Triton则隐藏了一些线程块粒度以下的调度功能，改由编译器自动接管共享存储、线程并行、合并访存、张量布局等细节，降低了并行编程模型的难度，同时提高了用户的生产效率。同时，厂商能够及时跟进Triton的更新，保持在硬件适配的前沿序列，也可以提出多芯片适用的共性技术创新，并贡献到Triton的开放社区中，继而成为Triton生态发展的引领者。与CUDA相对而言，Triton隐藏了线程级别的操作控制权，在编程灵活性上有所牺牲，以达到开发效率和计算能效的均衡。

2024-09-24 09:05:38 1152

原创活动回顾｜Triton 中国生态 Meetup 第二期

通过实例代码，展示了如何优化 MoE 架构，提升计算效率，并探讨了 L2 缓存优化和量化技术在 MoE 中的应用，为 AI 模型的优化提供了宝贵的实践经验。李之昕老师详细介绍了 FlagGems 的最新研发进展，包括新增的算子和功能特性，性能和功能的改进，硬件适配的最新进展，以及未来的研发计划。活动的成功举办，展示了Triton的广泛应用和强大潜力，也为未来更多的Triton爱好者提供了宝贵的经验和启示。https://event.baai.ac.cn/activities/833（复制到浏览器打开）

2024-09-20 10:54:37 1198

原创 Triton大会@硅谷：芯片、AI大厂齐站台

此次大会，包括 Nvidia、AMD、Intel、Qualcomm 在内的各大芯片厂商，以及Google、微软、OpenAI、AWS 和 Meta 等 AI 领域的领军企业，均将 Triton 视为构建开放 AI 软件栈的关键技术，尤其是 Meta 都把 Triton 作为打造开放 AI 软件栈的必需品。Triton 的社区生态建设呈现出一种独特的活力，核心团队虽不张扬，但众多芯片厂商和用户厂商表现出极高的热情和积极性，Triton 社区有种被大家推着往前走的“幸福”感。敬请期待我们的精彩内容！

2024-09-19 13:03:15 1707 1

qq_41610763的博客