- 博客(18)
- 收藏
- 关注
原创 基于 SGLang Chunked-Prefill 支持 Block-Wise Diffusion LLM 框架
在使用 0.95 阈值解码时,LLaDA2.0-flash-CAP 实现了 500 TPS 的速度,明显优于普通版的 LLaDA2.0-flash(383 TPS),并在小批量处理场景下,比自回归基准模型(分别为 258 TPS 和 237 TPS)快了约 1.9 倍。因此,实现高效的批处理成为我们必须解决的关键问题,核心改动是让 SGLang 能够在单个计算周期内,同时处理来自多个请求的扩散块,从而显著提升计算效率。此前,SGLang 仅支持传统的自回归计算模式,尚未适配扩散语言模型的计算方式。
2026-02-12 16:36:58
719
原创 Dragonfly 论文入选 IEEE TON:AI 领域海量镜像与大模型分发的解决方案
论文设计构建了一个高效、可扩展的 P2P 模型分发系统,该系统是对 CNCF 孵化项目 Dragonfly 的增强,通过多层次设计实现了资源优化与数据同步的有机结合,旨在解决传统 P2P 文件分发系统在面对 AI 大模型(如千亿参数模型)分发的特定挑战时表现不佳的问题。项目官网。
2026-02-12 16:07:24
679
原创 LLaDA2.1 正式开源,可纠错编辑机制让 100B 扩散模型突破 892 TPS 速度极限
LLaDA2.1 的意义不仅在于 892 TPS 的速度数字,更在于它证明了:通过技术创新,扩散语言模型完全可以在保持并行生成优势的同时,克服质量与速度的传统权衡。可纠错编辑机制的引入,让 dLLM 第一次拥有了“自我修正”的智慧;双模式设计让用户真正成为速度与质量的决策者;强化学习框架则为扩散模型的后训练开辟了新的可能性。我们诚挚邀请社区开发者体验 LLaDA2.1,也欢迎有志于探索 LLaDA 模型的同学加入我们,共同探索扩散语言模型的边界。
2026-02-12 15:35:50
748
原创 蚂蚁集团开源移动端流式 Markdown 渲染引擎 FluidMarkdown
在大模型驱动的智能应用时代,AI 生成内容的规模与复杂度持续攀升。无论是对话助手、智能体服务,还是客服系统与知识问答,Markdown 已成为连接 AI 与用户界面的关键桥梁,让信息表达更清晰、更结构化。然而,在移动端原生开发中,想要实现高效、流畅的实时 Markdown 渲染并同时兼顾流式增量输出与灵活样式定制,仍是一项棘手的技术挑战。
2026-02-11 16:34:02
516
原创 推理速度 10 倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架 dInfer
蚂蚁集团开源业界首个高性能扩散语言模型(Diffusion Large Language Model,dLLM)推理框架 dInfer。在基准测试中,dInfer 将 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上,并在关键的单批次(batch size=1)推理场景下,作为首个开源框架实现了大幅超越经过高度优化的自回归(AR)模型的性能里程碑,在 HumanEval 上达到 1011 tokens / 秒的吞吐量。
2026-02-11 16:24:06
1194
原创 智能编程助手 Neovate Code 正式开源
蚂蚁集团支付宝体验技术部正式对外开源智能编程助手 Neovate Code,能够深度理解你的代码库,遵循既有编码习惯,并在上下文感知的基础上,精准地完成功能实现、Bug 修复和代码重构。它集成了 Code Agent 所需的核心能力。目前,Neovate Code 以 CLI 工具的形态提供,但其架构设计高度灵活,未来将支持多种客户端形态,适配更多开发场景。其主要功能包括:对话式开发 - 用于编程任务的自然对话界面AGENTS.md 规则文件 - 为你的项目定义自定义规则和行为。
2026-02-09 15:36:50
679
原创 AReaL 团队开源 ASearcher 项目,解锁搜索智能体领域的最新突破
ASearcher 项目通过完全异步 RL 训练以及高质量的构造数据,让 agent 通过 RL 训练学会复杂的搜索行为,这伴随着工具使用次数以及输出长度的提升。目前 ASearcher 聚焦于 agentic RL 训练,未来仍有多个方向值得继续探究:多工具接入:ASearcher 目前只使用了两个基本的搜索和网页浏览工具,未来可以接入更多的工具进行RL训练,提升 agent 在复杂任务下的性能。
2026-02-05 18:02:13
918
原创 蚂蚁正式开源 LingBot-Depth,基于掩码深度建模的新一代空间感知模型
LingBot-Depth 是一种面向真实场景的深度补全模型,依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证,并基于深度引擎芯片直出的深度数据进行训练与优化,旨在将不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果,提升环境深度感知与三维空间理解能力,为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉。未来,我们期待通过开源开放与生态合作,和广大合作伙伴一起加速具身智能在家庭、工业、物流等复杂场景的大规模应用落地。
2026-01-28 16:36:38
647
原创 AI 记忆进化论:从被动存储到智能管理
在刚刚结束的 2025 Inclusion·外滩大会上,蚂蚁开源团队发布了全新的。这是报告 5 月首次发布后的 2.0 版本,不仅全面揭示了人工智能开源领域的发展现状和未来趋势,还纳入了百余天内开源社区的新动向。接下来,我们将围绕等报告中呈现的三大重要技术趋势给出专题洞察,持续挖掘三大热门技术领域中代表性开源项目背后的故事,敬请关注!今天我们为大家带来的故事是 AI Agent 之。
2025-10-17 14:23:27
1110
原创 从社区数据出发,再看大模型开源开发生态全景与趋势
熟悉围绕开源许可证的一些前尘往事的开源朋友,在看到刚刚这 10 个顶尖的项目所采用的许可证时,也许心中已经警铃大作。Dify 的 Open Source License基于 Apache 2.0 许可的文本做了修改,增加了两个附加条款:限制未经许可的多租户环境运营;使用Dify前端时,不得移除或修改 LOGO 和版权信息。
2025-10-10 15:30:47
821
原创 Dragonfly 发布 2.3 版本,新增持久化缓存、资源搜索及 Vortex 协议等新特性
Dragonfly 发布 2.3.0 版本,新增多个功能特性并进行安全增强。同时,子项目 Nydus 也增加多个功能特性。本篇博客将介绍最重要的变更。有关功能增强及漏洞修复的完整列表,请查看 d7y.io 官网。
2025-07-04 10:15:42
969
原创 智算时代的流量枢纽:蚂蚁 AI Gateway 如何提升大模型推理效能
在进入主题之前,先与大家分享一些关键数据。首先是通义大模型的下载量增长:去年 5 月是 700 万次,8 月突破 2000 万次,至今年 2 月已超 2 亿次,几乎是每三个月翻三倍。一年增长几十倍的业务,可以说是相当快迅猛的增长了。这些主要是去年的数据,那么今年会不会还能这么飞速且持续地增长下去呢?对此,在今年英伟达的 GTC 大会上,英伟达 CEO 黄仁勋表示推理型模型(如 OpenAI O1 和 DeepSeek R1)的普及,未来推理服务需求将迎来 100 倍量级增长。
2025-06-26 11:33:09
933
原创 【万字长文】大模型开源开发全景与趋势解读
当我们看到这些数据趋势的时候,一个词浮现在我的眼前——黑客松(Hackathon),AI 领域的项目,快速地出现、快速地停更,他们似乎在做一场真实市场里的黑客松,那么,什么领域涌现了最多项目,哪些方面是停更的重灾区,哪些项目幸存了,激烈竞争的项目们如今怎么样了,我们都尝试着在这份趋势报告里叙述一二。
2025-05-29 14:58:02
1120
原创 蚂蚁清华联合发布 AReaL-boba,代码数据全开源,助力社区轻松复现 SOTA 推理模型
蚂蚁技术研究院与清华大学交叉信息院吴翼团队联合发布开源强化学习训练框架(Ant Reasoning RL)0.2 版本,并公开全部代码、数据及训练脚本,助力社区轻松复现 SOTA 推理模型。
2025-04-03 13:44:31
1010
原创 国内首个 MCP Client!OpenSumi 3.8 版本发布:Agent 优先,支持任意模型接入!
OpenSumi 是一个开源的、高性能和高度可定制的 IDE 研发框架,它为开发者提供了一套工具和组件,用以构建双端(Web 和 Electron)的集成开发环境,着重于降低定制难度,使开发者能够轻松组合功能模块,以满足特定的业务需求。OpenSumi 的定位是让 IDE 定制化研发变得简单丝滑。
2025-03-25 17:38:55
2660
原创 蚂蚁集团在加速互联网和金融服务创新上的实践——平台工程解决方案
趁热打铁,今天继续带来 KusionStack 解决方案。本文介绍蚂蚁集团如何通过建设自服务开发者平台来提升开发者效率,以加速公司的创新。文章转自蚂蚁集团资深技术专家王子剑在 PlatformCon 2024 的演讲。
2025-03-21 15:53:50
2489
原创 蚂蚁技术研究院发布推理大模型强化学习框架,邀请开发者共同助力 AGI 生态
可靠地使用 7B 模型进行 R1-Zero 实验,即在 Qwen2.5-7B 模型上运行强化学习训练,观察 thinking token 的涌现以及模型在数学推理任务上的持续改进。首次发布包含了基于 AReaL 系统的可复现实验,涵盖 1.5B 和 7B 参数的 LRM,并在多种计算预算下进行了验证。希望 AReaL 为 AGI 相关领域的研究贡献微薄之力,为更广泛的社区和应用场景提供支持。通过 AReaL,我们希望能够为更广泛的研究者和开发者提供灵活且强大的工具,加速模型推理能力的发展与普及,
2025-02-27 17:10:52
1036
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅