自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 智算中心异构能力评估指南已启动编制

近期,在上海市人工智能标准化技术委员会支持指导下,上海人工智能实验室DeepLink及标准团队联合上海仪电旗下上海智能算力科技有限公司国产适配中心牵头召开《智算中心异构能力评估指南》上海市地方标准编制启动会。

2026-02-11 14:32:00 267

原创 由Ring-Attention性能问题引发的计算通信overlap分析

简要来说,Ring-Attention利用了分块注意力机制,将QKV张量沿序列维度分割成多个块,并使每个GPU最初分配一个块,实现了上下文并行计算。对于每个查询块,通过遍历所有KV块来计算其对应的注意力输出。通信以环形方式进行组织,每个GPU同时发送和接收KV块,使得通信可以与计算重叠。我们可以将Ring-Attention视为分布式的FlashAttention。左图是传统的Ring-Attention,右图是具有负载均衡特性的Zigzag-Ring-Attention举个例子,如上图所示。

2026-02-09 18:02:39 792

原创 从“数据作坊”到“数据工厂”:Nimbus,面向具身合成数据管线的统一生产框架

Nimbus 精准直击具身仿真合成数据生产的“碎片化、低效率、不稳定”三大痛点,通过创新的四层模块化架构提供了系统级解决方案。其中,调度优化层实现统一的动态流水线并行调度与容错机制,阶段执行层定义合成管线全生命周期的标准化执行抽象,功能组件层完成多类管线组件的归一化封装,后端优化层则针对各类渲染器落地通用型性能优化。这种分层解耦的设计,让统一的调度与优化原语能够无缝适配异构数据生成管线,无需开发者重写底层场景逻辑。

2026-02-06 10:48:43 892

原创 AI4S 量子技术揭秘:打破谷歌量子计算的能效壁垒

量子计算是基于量子力学原理发展形成的信息处理的概念和技术体系。量子计算最开始源自物理学家费曼的构想。由于复杂且高度纠缠的量子系统难以用经典计算机高效模拟,费曼提出利用一种可控的量子计算机去研究量子系统的可能性。近年来,随着量子计算硬件与应用算法的不断进步,量子计算被认为有机会在某些特定的应用上提供指数级别的计算加速;另外量子计算作为一种区别于经典计算的体系,因不再受到晶体管极限的限制,而受到人们的重视。在硬件方面,量子计算处理器目前主流路线包括超导、离子阱、光量子、中性原子等。

2026-02-04 17:50:38 877

原创 如何用 Triton实现一个更高效的topk_gating kernel?——算子合并技术

在本文中,我们通过观察topk_gating算子的内在结构,入手先后尝试了3种方法,Cuda Graph、torch.compile和Kernel fusion。经过比较验证后,我们得出第三种为最佳方式,尤其是在正向传播中性能提升了近20倍,从而实现了更高效的topk_gating kernel的目标。如果你喜欢我们的内容,欢迎我们!也欢迎在评论区与我们互动!你的支持是我们持续创作的动力!

2026-02-02 18:05:44 748

原创 多stream通信显存生命周期管理优化

CUDA 异步通信操作(如all_gather)是分布式训练中常见的操作之一,主要用于在多个 GPU 之间收集并同步数据。尽管这些操作本身是异步执行的,但在其执行过程中,GPU 显存会临时存储中间数据。这是因为在数据收集过程中,每个 GPU 不仅需要存储自己的数据,还需要存储从其他 GPU 接收到的数据,直到所有数据成功收集并整合完成。CUDA 采用动态内存管理机制,即内存的分配与释放是动态进行的。在异步操作(如all_gather)完成后,理论上占用的显存应当被释放。

2026-01-28 18:51:46 784

原创 取长补短,解锁推理性能1+1>2,DeepLink首发:生产级国产异构算力混合推理加速方案

DeepLink 团队打造首个国产异构算力 PD 分离混合推理方案,通过 PD 分离架构,实现了3款异构芯片的混合推理。此方案利用国产硬件的异构优势,实现 1+1 > 2 的推理效能,为 AI + 制造等场景的规模化落地提供可行路径。

2026-01-25 14:56:07 859

原创 Agent Memory(下):工作记忆折叠、会话档案化与记忆演化

在本篇中,我们转向长期一致性与多轮任务保持这类任务。通过 DeepAgent、Claude Agent SDK 和 MUSE 三条路径,我们看到现代记忆系统正在从“存储”演变为“面向行为链的组织与演化”。真正的 Agent Memory 是一种系统工程,而非单一模块。它牵涉信息表达、结构化组织、检索策略、工具调用链管理、行为一致性维护以及跨会话的经验演化。如何让记忆不仅服务单一任务,还能在更大范围内形成可迁移的能力结构。基于信号质量、任务相关性和模型不确定性动态选择写入与遗忘。

2026-01-22 11:15:58 628

原创 Agent Memory(上):记忆的形态、功能与代表性路径

在本篇中,我们从宏观结构到具体机制,对 Agent Memory 的基础框架进行了系统化梳理。如何在有限上下文中维持有效的短期状态表示;如何在跨会话场景中构建可检索、可复用的长期知识链路。从这些方案中可以看到,Agent Memory 的关键不在于“存得更多”,而在于选择性保留、结构化组织、面向任务的可复用性。REFERENCE[1] ​​[2](2025|NUS&人大&复旦&北大,Agent,LLM,RAG,上下文,记忆形式/功能/动态)AI Agent时代的记忆:综述[3]

2026-01-20 11:26:24 686

原创 “多元算力”推理生态的观察和思考

作者:JMX、TZY、ZSL、YFC from DeepLink Group @ Shanghai AI Lab。

2026-01-15 18:49:45 570

原创 国产芯片上如何排查大模型精度问题?干货经验分享!

我们使用了逐算子、逐 module 层精度对比工具,以及 loss 曲线比对的方式,排查分析了大模型微调时下游评测精度在 A2 和 CUDA 对不齐的问题。经分析发现和rms_norm存在精度问题,在使用非和使用组合的rms_norm后,loss 曲线可以和 CUDA 对齐,且下游评测任务的平均得分和 CUDA 基本一样。如果你喜欢我们的内容,欢迎我们!也欢迎在评论区与我们互动!你的支持是我们持续创作的动力!

2026-01-14 19:04:19 608

原创 LightRFT:轻量全模态微调RL框架,显存利用率飞跃!‌

"开源不仅是一种开发方式,更是一种先进的生产力协作模式"。联创团队将LightRFT开源,正是希望通过社区的力量,让RFT技术变得更普惠、更易用。目前项目已在GitHub开放全部源码,包含详细的中文文档、示例代码和问题解答等。如果你正在寻找一款靠谱的RFT框架,或者想参与开源项目积累经验,不妨试试LightRFT——star、fork、提issue,都是对开源项目最好的支持~ 也欢迎大家在评论区分享你的使用体验!

2026-01-12 13:59:14 982

原创 RL 训练系统显存优化探究

本文针对强化学习训练中的显存瓶颈问题,提出了三种优化方案:1)通过循环计算方式优化logprob函数,将显存占用从4.6GB降至1.2GB;2)采用FlashAttention技术,进一步将显存占用降至96KB;3)使用liger_kernel优化基础算子,整体显存从67.2GB降至52.9GB。针对长序列大批次训练中logits占用过大问题(如16×10000批次占用45.3GB),提出fused_linear_logprob方案,通过重构计算逻辑避免保存logits,在保持计算速度的同时显著降低显存占用

2026-01-07 20:16:38 632

原创 DeepLink来了!邀你一起解锁 AI 开放计算新可能

DeepLink团队正式入驻,为大家带来AI 算力、软硬件适配等领域的前沿科技信息和相关讨论。欢迎大家关注并与我们多多讨论!

2026-01-06 12:09:06 560

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除