NVIDIA AI 技术专区-CSDN博客

原创 NVIDIA全新语音AI加速解决方案

NVIDIA凭借其强大的GPU加速技术，推出了Parakeet-TDT-0.6B-V2全新的ASR语音识别模型，打造“小巧高效”的“超级听写机”，实现语音识别的“快、准、稳”。同时结合NVIDIA Triton 和 TensorRT-LLM加速优化的TTS语音合成解决方案，真正赋能实时的语音AI应用，驱动全栈式语音AI新变革。将聚焦Parakeet模型的核心技术介绍与TTS加速解决方案的实战应用分享，帮助您深入了解如何利用NVIDIA技术实现语音AI的高效开发与优化部署。自回归 TTS 部署加速。

2025-06-09 11:40:44 281

原创 NVIDIA 培训 | NVIDIA Earth-2 限时免费中文新课发布，掌握 AI 天气建模全流程

天气预报在公共和私营领域的规划与决策中不可或缺，天气会影响从供应链韧性到能源生产等方方面面。传统的数值天气预报系统操作复杂，对时间和计算资源要求极高。随着 AI 天气建模的最新进展，非专业人员如今也可以运行根据自身需求定制的预测。NVIDIA 深度学习培训中心（DLI）发布限时免费中文新课《使用 NVIDIA Earth-2 部署 AI 天气模型》，探讨先进的 AI 天气预测模型所带来的可能性，并教授如何将其集成进自定义工作流中。3 学时 | 中文 |

2025-06-06 14:22:48 883

原创在阿里云 PAI 上一键部署和使用 NVIDIA Cosmos Reason-1 模型

阿里云 PAI 团队测试的 Cosmos Reason-1 tools 的性能表现如下：在 Qwen2.5-32B-Instruct 模型和 gsm8k 数据集 (Batch size = 2,048) 组合上进行后训练测试，相比其他开源框架，Cosmos Reason-1 tools 在小规模集群上实测有 1-2 倍的性能加速。它提供的模型后训练脚本 (SFT + RL) 将加速企业和开发者基于自有数据定制 Cosmos Reason-1 模型，从而创建专属的 physical AI 模型。

2025-05-30 11:23:36 974

原创第三届 NVIDIA DPU 黑客松开启报名

在整个活动期间，NVIDIA 将为您提供所需的支持和工具，帮助您学习 DOCA 软件框架的基础知识，以及了解如何使用 DOCA SDK 和工具开发 DPU 加速的云应用程序。本次竞赛期间，您将有机会与 NVIDIA 顶尖的网络技术专家直接交流，并在赛前参加线上技术训练营，在专业的培训及导师的指导下利用 NVIDIA BlueField DPU 及其硬件加速功能开发 AI 或基于网络的应用程序，将您的创新想法变为现实。团队注册完毕后，您仍可重新提交表单并指明您要修改先前的注册内容，以便修改您的申请。

2025-05-27 11:07:32 789

原创 NVIDIA 助力安利打造新一代智算中心

依托 NVIDIA AI Enterprise 企业级解决方案，安利正在构建安全、高效、可扩展的 AI 基础设施体系，全面提升算力资源调度能力与推理服务工程化水平，为 AI 在全业务场景的规模化落地提供坚实支撑。借助生成式 AI，安利正在重塑业务流程，推动企业数字化转型，驱动业务创新与价值增长。借助 NVIDIA 强大硬件性能与端到端 AI 软件生态，安利在本地快速部署大语言模型，构建覆盖全链路的 AI 应用开发与运维体系，实现 AI 能力在核心业务场景中的深度定制与规模化落地。

2025-05-27 11:01:11 755

原创用于视频搜索和总结的 AI Blueprint 现已推出，可在各行各业部署视频分析 AI 智能体

通过 VAST InsightEngine，NHL 能够实现在亚秒级时间内对 PB (petabytes) 级视频的检索，支持对比赛精彩瞬间和高光时刻的近实时提取。AI 驱动的代理式工作流通过自动剪辑、标记和组合视频内容，进一步提高了内容创作效率，确保素材的便捷访问与高效利用。Linker Vision 的 AI 应用由 VSS 蓝图驱动，其智能体能够结合实时视频分析与生成式 AI 技术，不仅可以检测视觉元素，还能够解析并生成对洪水、交通事故等复杂城市事件的态势描述。除了视觉理解，它还支持音频转录。

2025-05-27 11:00:18 836

原创逻辑推理 AI 智能体重构高价值决策制定路径

上获取，用户可使用它高效连接、分析和优化 AI 智能体团队，并通过完整的系统可追溯性和性能分析能力，识别效率低下的问题并进行改善。SAP 的智能体 Joule 将集成 NVIDIA Llama Nemotron 的逻辑推理功能，能够解析复杂的用户请求、深度挖掘企业数据价值、自主执行跨职能的业务流程。经实测对比，税务专用逻辑推理模型相较于通用模型，在使用逻辑推理方法时，税务问题的回复质量提高了 86%。每个组件都能增强智能体的能力，包括与外界交互能力、创建和执行详细计划的能力、以及半/完全自主行动的能力。

2025-05-27 10:57:55 749

原创 NVIDIA 培训 | NVIDIA 认证考试在线详解和答疑，助您顺利备考

请扫描如下二维码或点击文末“阅读原文”，立即注册参会。或复制粘贴：

2025-05-12 09:32:43 1055

原创 NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署

仅仅通过几行代码，开发者即可通过包括 TensorRT-LLM 在内的流行推理框架来使用最新的 Qwen 系列模型。此外，对模型推理和部署框架的技术选型需要考虑到诸多关键因素，尤其是在把 AI 模型部署到生产环境中时，对性能、资源和成本的平衡。

2025-05-06 16:18:58 970

原创企业使用 NVIDIA NeMo 工具快速引入 AI 成员，以提高员工生产力

要维护和优化生产环境中驱动 AI 智能体的模型，需要三类数据：用于获取洞察并适应数据模式演变的推理数据，提供智能的最新业务数据，以及验证模型与应用表现是否符合预期的用户反馈数据。已发布的 NeMo 微服务可与合作伙伴平台集成，作为创建 AI 智能体的构建模块，使用商业智能与强大的逻辑推理模型 (包括 NVIDIA Llama Nemotron) 处理更多任务。在多智能体系统中，数百个具有不同目标和工作流的专用智能体作为数字员工，协同处理复杂的任务，与员工并肩工作，实现跨职能的辅助工作并提升效率。

2025-04-28 10:16:52 1240

原创 NVIDIA AI 实践月 | 代理式 AI 落地应用，助力企业提升效率

因此，我们特别推出 NVIDIA Agentic AI 实践月系列内容，带您了解代理式 AI 在 NVIDIA 内部的各个实践，分享 NVIDIA 内部团队的解决方案和重要经验，供您参考和借鉴。然而，微调较小的模型需要高质量的标记数据，而创建这些数据既耗时又昂贵。这表明 API 目录可用于生产部署。通过这些前沿实践，NVIDIA 不断突破技术创新的边界，积极加速代理式 AI 的落地应用，为开发者和企业打造了一系列极具价值的参考范例与强大工具，助力他们在各自的专业领域中实现突破性创新，提升效率与竞争力。

2025-04-25 16:05:06 879

原创 NVIDIA DOCA 2.9 通过新的性能和安全功能来增强 AI 和云计算基础设施

发布版本引入了一些关键的增强功能，可提升 DOCA 的功能，包括通过 DOCA Flow API 大幅提升连接追踪（CT）功能的性能。此长期支持（LTS）版本为用户提供了一种对传统使用 DPDK 或内核数据路径（kernel datapath）的 OVS 解决方案的替代方案，为现代网络环境提供更高的效率和扩展功能。IBCC 专门针对 InfiniBand 上的 AI 工作负载进行了优化，而 NVNCC 通过改进的拓扑检测功能增强了 Spectrum-X 拥塞控制算法，现在支持长距离的 RoCE。

2025-04-25 16:01:32 804

原创安全第一：领先的合作伙伴采用 NVIDIA 网络安全 AI 来保护关键基础设施

NVIDIA 网络安全 AI 平台与生态系统合作伙伴的专业知识相结合，提供了强大且可扩展的解决方案，以保护关键基础设施环境免受不断变化的威胁。并预约 AI 网络会议，此系列精选会议将探索最新发布的 AI 计算网解决方案和大规模 AI 数据中心网络用例，凸显 NVIDIA 网络在 AI 工厂和 AI 云基础设施构建中的核心价值。正在推动客户的数字化转型，借助 NVIDIA 网络安全 AI 平台，满足了对突破性技术的需求，这些技术需要实时、细颗粒度的数据中心网络可见性，以抵御日益复杂的威胁。

2025-04-25 15:57:24 590

原创利用 NVIDIA DOCA 平台框架助力新一代 DPU 加速的云基础设施

越来越多的企业开始采用加速计算，从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了，该框架提供了基础构建模块来释放的强大功能，并优化 GPU 加速计算平台。作为一种编排框架和实施蓝图，DPF 使开发者、服务提供商和企业能够无缝构建 BlueField 加速的云原生软件平台。通过简化 DPU 配置、生命周期管理和服务编排，DPF 使 BlueField DPU 可在 Kubernetes 环境中广泛使用，以加速 AI 和其他现代工作负载。

2025-04-25 15:52:12 782

原创 NVIDIA Spectrum-X 网络平台和合作伙伴提升 AI 存储性能达 48%

对于具有数十亿至数万亿参数的模型，这些 Checkpoint 的状态变得越来越大，现在最大型 LLM 模型会生成高达数 TB 的数据，保存数据或恢复数据会产生多条“大象流”，这些突发的大象流，可能会淹没交换机的缓冲和链路，所以网络必须保证为训练工作负载提供最佳利用率。是另一个存储网可以影响工作负载性能的例子，借助 RAG，LLM 与不断增长的知识库相结合，为模型添加特定领域的上下文，从而提供更快的响应时间，而无需额外的模型训练或微调。扩展到数据存储网，从而带来更高的性能和更快的实现 AI 的时间。

2025-04-25 15:47:48 525

原创 NVIDIA 硅光网络交换开启数据中心网络新时代

传统光模块出现故障时，可能需要花费数小时的人工干预来进行故障排除和维修。系统，采用先进的 200G SerDes 技术，与传统的可插拔光模块相比，这种创新的硅光一体封装技术具有显著的优势，例如 3.5 倍的能耗降低、延迟的降低、以及显著的网络可靠性提升等，这些都是加速大规模 AI 模型开发和推理的关键因素。集成光器件后，交换机 ASIC 和光收发器之间的连接将在 IC 封装层面进行设计、组装和测试，消除了信号衰减的来源，也消除对独立的数字信号处理器（DSP）的需求，DSP 往往会引入延迟并消耗额外的电力。

2025-04-25 15:44:25 631

原创 NVIDIA 与谷歌云为企业带来代理式 AI 逻辑推理

通过将我们的 Gemini 模型与 NVIDIA Blackwell 的突破性性能和机密计算能力引入本地部署环境，企业得以充分释放代理式 AI 的全部潜能，”谷歌云副总裁兼基础设施和解决方案总经理 Sachin Gupta 表示。该解决方案由搭载 Blackwell GPU 和采用 NVIDIA 机密计算的 NVIDIA HGX 平台提供支持，助力客户保护 AI 模型和数据，使用户能够在不损害数据安全性或模型完整性的前提下实现突破性的性能和能效。来增强代理式 AI 工作负载的可观测性。

2025-04-16 15:39:07 954

原创从浏览到购买：AI 智能体如何促进线上购物

从使用精准、高质量的数据优化产品目录，到提高搜索相关性与提供个性化购物辅助，AI 智能体正在改变消费者线上发现、互动和购买商品的方式。SoftServe 的购物助手通过帮助客户快速高效地发现产品并获取详细的产品信息，打造无缝衔接的沉浸式购物体验，其突出的创新点是虚拟试穿功能，让客户可以实时看到衣服和配饰穿戴在身上的效果。然而，过度丰富的选择反而可能会引发决策疲劳，消费者难以在纷繁复杂的信息洪流中选择到所需要的商品。利用 AI 智能体的零售组织将获得不断进化的能力，例如通过增强的预测分析实现更个性化的推荐。

2025-04-16 15:36:20 1004

原创单机8卡GPU，私密云计算平台升级！

经过双方共同努力，支持单机8卡的火山引擎 PCC 私密云计算平台，可实现对满血 DeepSeek 规格模型的全面支持，不仅能确保数据的安全性和隐私性，完整的远程证明功能，可实现毫秒级响应，据测试，AI 应用场景下，推理时延相比明文的损耗不超5%。手机快速记录：对于端侧用户来说，手机和电脑是极其私密的个人终端，快速记录功能需要确保用户输入的语音、视频的隐私安全，火山引擎 PCC 私密云计算平台，可在大模型推理过程中，全程以密文形式处理用户数据，保障用户隐私安全。

2025-04-16 15:34:55 335

原创 NVIDIA 借助由超级芯片提供支持的 CUDA-X 库加速科学和工程发展

对于各类大规模计算工程问题，通过 Grace CPU 存储单元和超级芯片架构，在相同 GPU 和 cuDSS 混合显存技术下，可将最耗时的求解环节速度提升至原来的 4 倍。NVIDIA GTC 全球 AI 大会上宣布，开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同，实现 CPU 和 GPU 资源间深度自动化整合与调度，相较于传统加速计算架构，该技术可使计算工程工具运行速度提升至原来的 11 倍，计算规模增加至 5 倍。的时间，很大程度上取决于模拟极其复杂的量子系统的能力。

2025-04-01 11:27:54 1025

原创适用于 NVIDIA Blackwell 架构的全新软件驱动 AI 工厂高速运行

它可以自动处理所有基于 NVIDIA Blackwell 的 NVIDIA DGX 系统以及 NVIDIA Grace Blackwell 系统的 AI 工厂基础设施生命周期，包括戴尔科技、慧与 (HPE) 、联想和 Supermicro，让全球各行各业都能更轻松地使用先进的 AI 基础设施。与依赖人工干预的传统方法相比，Mission Control 自主恢复功能在快速检查点和自动分层重启功能的支持下，可将任务恢复速度提升高达 10 倍，从而提高 AI 训练和推理效率，保持 AI 应用正常运行。

2025-03-28 14:33:20 954

原创 AI 落地新“食”代：百胜集团与 NVIDIA 共同加速餐饮行业智能创新

该系统部署在由 NVIDIA A100 GPU 加速的 Amazon EC2 P4d 实例上，能够理解自然语言、处理复杂的菜单订单并提供加购建议，在提高准确率和顾客满意度的同时，有效缓解部分高峰门店的运营压力。百胜集团，全球最大的连锁餐厅，也是肯德基、Taco Bell、必胜客和 Habit Burger& Grill 的母公司，正在通过 NVIDIA AI 技术加速 AI 部署，以优化订单处理、提升运营效率并改善餐厅服务体验。百胜集团行业领先的数字技术团队近期推出专有的数字化 AI 餐厅技术平台。

2025-03-28 14:31:37 497

原创 NVIDIA 开源 cuOpt 开启决策优化新时代

对于开发者而言，它提供了高性能 AI 工具包，在处理复杂的优化挑战时，例如网络数据路由（优化视频、语音和网络流量，以减少拥塞并提高效率）或电力分配（平衡电网的供需，最小化损失并确保稳定传输）等，其解决决策问题的速度比传统 CPU 求解器快 3000 倍。FICO、Gurobi Optimization、IBM 和 SimpleRose 等优化领域的领先企业正在探索 GPU 加速的优势，或评估将 cuOpt 集成到其工作流程中的可能性，以及其在工业规划、供应链管理和调度等领域的潜力。

2025-03-28 14:29:44 555

原创从 AT&T 到联合国，NVIDIA AI Enterprise 助力 AI 智能体重构工作模式

AI 智能体的核心功能可被定制，如问答、翻译、数据处理、预测分析和自动化，以提高组织和行业的生产力，节省时间和成本。合作部署了一个 AI 驱动的 Methods Matcher 工具，为 40 多个国家的人道主义援助专家提供支持，包括研究、总结、最佳实践指南和数据驱动的危机响应，在灾难情况下可提供快速援助。，开发人员可以将 AI 智能体构建到更大的代理式系统中，这些系统可以进行推理，然后将这些系统连接至企业数据，从而解决复杂问题、调用其他工具、实现高效协作，并以更高的自主性运行。

2025-03-28 14:27:41 612

原创 Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

Soley Therapeutics 的联合创始人兼首席执行官 Yerem Yeghiazarians 表示，“OCI 与 NVIDIA 的结合提供了一个全栈式 AI 解决方案，为我们提供了必要的存储、计算、软件工具以及支持，使我们能够利用 PB 级数据更快地进行创新，以开发我们的 AI 药物研发平台。” Pipefy 首席软件工程师 Gabriel Custodio 表示，“借助这些预封装且经过验证的蓝图，我们部署在 OCI 上的 AI 模型现在已完全自动化，并且速度显著加快。

2025-03-20 16:56:00 915

原创 NVIDIA、Alphabet 和谷歌携手开启代理式与物理 AI 的未来

NVIDIA 创始人兼首席执行官黄仁勋称，“看到谷歌和 NVIDIA 的研究人员和工程师并肩合作，共同应对从药物研发到机器人开发的艰巨挑战，我感到非常高兴。Gemma 由 NVIDIA AI 平台驱动，可作为高度优化的 NVIDIA NIM 微服务使用，利用开源 NVIDIA TensorRT-LLM 库的强大功能，提供卓越的推理性能。两家公司将评估潜在的解决方案，包括利用 AI 优化互连过程，旨在加强能源基础设施的规划和现代化，以打造更加可持续的未来。SynthID 有助于维护。

2025-03-20 16:55:15 496

原创 NVIDIA 发布连接 AI 智能体的 AI-Q Blueprint，开启未来工作新范式

使用这些工具的企业将能够更轻松地连接跨解决方案的 AI 智能体团队，例如 Salesforce 的 Agentforce，Confluence 和 Jira 中的 Atlassian Rovo，以及用于业务转型的 ServiceNow AI 平台，以打破孤岛，简化任务，并将响应时间从几天缩短到几个小时。通过使用 AI-Q 的分析器功能，Visa 可以优化智能体的性能和成本，更大限度地发挥 AI 在威胁响应中的高效作用。如今，借助协作能力，这些智能体可以协同工作，解决复杂问题，甚至产生更广泛的影响。

2025-03-20 16:54:18 943

原创 NVIDIA 推出开放推理 AI 模型系列，助力开发者和企业构建代理式 AI 平台

SAP 全球 AI 负责人 Walter Sun 表示，“这些先进的推理模型将优化和重写用户查询请求，使我们的 AI 能够更好地理解问题，并提供更智能、更高效的 AI 体验，从而推动业务创新。“推理和代理式 AI 的采用速度非常惊人，” NVIDIA 创始人兼首席执行官黄仁勋表示，“NVIDIA 的开放推理模型、软件和工具为世界各地的开发者和企业构建高效的代理式 AI 团队提供了坚实基础。推理性能的提高意味着模型可处理更复杂的推理任务，增强决策能力，并降低企业运营成本。

2025-03-20 16:53:20 1054

原创 NVIDIA Dynamo 开源库加速并扩展 AI 推理模型

作为 NVIDIA Triton™ 推理服务器的后续产品，NVIDIA Dynamo 是一款全新的 AI 推理服务软件，旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。”NVIDIA 创始人兼首席执行官黄仁勋表示，“为了实现自定义推理 AI 的未来，NVIDIA Dynamo 可以在这些模型上进行规模化部署，从而为 AI 工厂实现降本增效”。然后，它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上，从而避免昂贵的重新计算，并释放 GPU 来响应新的请求。

2025-03-20 16:45:03 1021

原创 GTC25 | 汲取 AI 灵感，就在这个中文线上专场

在本次演讲中，我们将分享基于位图的集合操作优化实践，详细阐述高效集合并集、交集、差集和其他操作的设计和实现要点，并展示如何与现有的基于排序数组的 GPU 集合操作工具包 (如 Thrust) 合作。最后，您将拥有切实可行的实施和部署 LLM 的策略，以满足服务水平低下的语言社区的独特需求。与此同时，GPU 上基于位图的集合操作工具包仍需进一步优化。大模型技术在搜索、推荐和广告领域的应用如火如荼，尤其是以生成式推荐为代表的研究被视为下一代搜推广稀疏大模型的全新技术路线，成为各大公司争相探索和落地的方向。

2025-03-20 09:36:28 875

原创 GTC25 | 迎接 AI 智能体新纪元，和行业专家共同探索新机遇

LangChain 联合创始人兼首席执行官 Harrison Chase，将分享 LangChain 在帮助企业开发、部署和管理大规模生产环境中的企业级 AI 智能体过程中所获得的重要经验，并探讨有望塑造未来的新兴技术。NVIDIA 高级工程总监 Bartley Richardson 将展示最新的工具和框架，这些工具和框架能够帮助开发者更便捷地构建代理式 AI 系统，连接 AI 智能体与企业数据，并在组织内部推动效率提升。系列内容，分享 NVIDIA 内部团队的解决方案和重要经验，供您参考和借鉴。

2025-03-20 09:27:58 558

原创使用 NVIDIA NeMo Curator 提高生成式 AI 模型的准确性

NeMo Curator 是一款功能强大的工具，旨在帮助您从原始数据集中提取最大价值，并将其转换为高质量的可消耗数据，以确保下游模型的高准确性。随着数据量呈爆炸式增长，拥有可扩展且高效的数据流水线比以往任何时候都更加重要。NeMo Curator 支持文本、图像和视频模式的处理，并且可以快速高效地扩展高达 100+ PB 的数据，确保您的模型保持最新状态，而不会受到模型漂移的影响。

2025-03-13 16:55:04 1546

原创基于 1F1B 的 MoE A2A 通信计算 Overlap

我们转向考虑 interleaved 1F1B，沿用上面调整 warmup step 的逻辑，惊喜地发现，通过将稳态的 1F1B stage 中第一个 micro batch 的 fprop 提前到 warmup stage，即 warmup step + 1，就可以在 interleaved 1F1B 实现 1F1B 稳态阶段不同 micro batch 前反向之间的 EP A2A 与计算的 overlap。因此，多数情况下两种方案的 bubble overhead 是比较接近的。

2025-03-11 15:59:32 769

原创 NVIDIA Cosmos World 基础模型平台助力物理 AI 进步

随着机器人和的发展，加速的发展变得至关重要，而物理 AI 使自主机器能够感知、理解并在现实世界中执行复杂的操作。这些系统的核心是，即通过物理感知视频模拟物理状态的 AI 模型，使机器能够做出准确决策并与周围环境无缝交互。平台可帮助开发者大规模为物理 AI 系统构建自定义世界模型。它为从数据管护、训练到定制的每个开发阶段提供开放世界基础模型和工具。视频 1、NVIDIA Cosmos：适用于物理 AI 的世界基础模型平台本文将介绍 Cosmos 及其加速物理 AI 开发的主要功能。

2025-02-07 14:21:23 828

原创如何使用 NVIDIA NeMo Guardrails 为客户服务保护 AI 智能体

AI企业扩展和提升客户服务以及支持交互提供了重要机会。这些客服人员可自动处理日常查询并缩短响应时间，从而提高效率和客户满意度，帮助组织保持竞争力。但是，除了这些优势之外，。容易生成不当内容或离题内容，并且容易受到“jailbreak”攻击。为了充分发挥生成式 AI 在客户服务中的潜力，实施可靠的 AI 安全措施至关重要。本教程为 AI 构建者提供了切实可行的步骤，以便将基本的安全措施集成到适用于客户服务应用的 AI 智能体中。它展示了如何利用，一种可扩展的铁路编排平台，包括作为。

2025-02-07 14:17:16 1227

原创 NVIDIA AI 技术开放日 2024年 7月

请点击以下链接观看全部活动视频：NVIDIA英伟达的个人空间-NVIDIA英伟达个人主页-哔哩哔哩视频

2025-02-06 11:17:45 318

原创 NVIDIA AI 加速精讲堂 2024年

请点击以下链接观看全部活动视频：NVIDIA英伟达的个人空间-NVIDIA英伟达个人主页-哔哩哔哩视频

2025-02-06 11:17:03 432

原创 NVIDIA专家面对面技术沙龙 2025 1月

请点击以下链接观看全部活动视频：Main Session-NVIDIA 从NIM到 AI infra 的全栈式解决方案概览_哔哩哔哩_bilibili

2025-02-06 11:14:04 694

原创借助最新 NVIDIA Merlin TensorFlow 插件实现大规模 Embedding 扩展

通过封装 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下简称 SOK）使得 TensorFlow用户可以借助 HugeCTR 的一些相关特性和优化加速 GPU 上的分布式 Embedding训练。在以往文章中（

2025-02-06 11:12:34 944

原创探索 FP8 训练中 Debug 思路与技巧

不过，这个特性还在开发过程中，目前还是一个比较初步的判断，需要检查是前向的矩阵还是反向的两个矩阵其中之一出现了差错。比如在引入 FP8 初期，软件上的 Sequence Paralleism（SP）经常会引起一些问题，因此可以先尝试进行关闭，如果发现关闭后并没有问题，可以初步判断 Loss 不是由软件引起的，从而大概率可以推断是 Recipe 不够完善造成的。我们发现，比较接近 Loss 末尾的时候，差异就会随之出现，并且显然已经不是十的负三次方的量级，这种情况下，可以考虑以下的步骤进行问题的排查。

2025-02-06 09:54:50 667

空空如也

空空如也