NVIDIA H100 GPU 上的机密计算可实现安全且值得信赖的 AI

NVIDIA H100 GPU机密计算助力安全AI

NVIDIA H100 GPU 上的机密计算,实现安全可信的 AI

在这里插入图片描述
在这里插入图片描述


前言

硬件虚拟化是将虚拟机 (VM) 中的工作负载与物理硬件以及彼此隔离的有效方法。这提供了更高的安全性,尤其是在多租户环境中。然而,带内攻击、侧信道攻击和物理攻击等安全风险仍可能发生,从而损害数据和应用程序的机密性、完整性或可用性。


在这里插入图片描述

直到最近,保护数据还仅限于动态数据(例如在 Internet 上移动负载)和静态数据(例如存储介质加密)。然而,使用中的数据仍然容易受到攻击。

NVIDIA Confidential Computing 提供了一种解决方案,用于安全地处理正在使用的数据和代码,防止未经授权的用户访问和修改。在运行 AI 训练或推理时,数据和代码必须受到保护。输入数据通常包括个人身份信息 (PII) 或企业机密,而经过训练的模型是非常有价值的知识产权 (IP)。机密计算是保护 AI 模型和数据的理想解决方案。

NVIDIA 处于机密计算的最前沿,与 CPU 合作伙伴、云提供商和独立软件供应商 (ISV) 合作,以确保从传统的加速工作负载到机密加速工作负载的转变是平稳和透明的。

NVIDIA H100 Tensor Core GPU是有史以来第一款引入机密计算支持的 GPU。它可以在虚拟化环境中使用,无论是使用传统 VM 还是在 Kubernetes 部署中使用,使用 Kata 在 microVM 中启动机密容器。

本文重点介绍具有机密计算的传统虚拟化工作流。

1. 使用硬件虚拟化的 NVIDIA 机密计算

根据机密计算联盟 (Confidential Computing Consortium) 的说法,机密计算是指通过在基于硬件的、经过证明的可信执行环境 (TEE) 中执行计算来保护使用中的数据。

NVIDIA H100 GPU 符合这一定义,因为它的 TEE 锚定在片上硬件信任根 (RoT) 中。当 GPU 在 CC-On 模式下启动时,GPU 会为代码和数据启用硬件保护。信任链通过以下方式建立:

  • GPU 启动序列,具有安全且经过测量的启动
  • 安全协议和数据模型 (SPDM) 会话,用于安全地连接到 CPU TEE 中的驱动程序
  • 生成一组加密签名的度量值,称为证明报告。

机密计算环境的用户可以检查认证报告,并且只有在认证报告有效且正确时才能继续。

2. 跨硬件、固件和软件保护 AI

NVIDIA 在每一代 GPU 中不断提高其 GPU 的安全性和完整性。自 NVIDIA Volta V100 Tensor Core GPU 以来, NVIDIA 一直在设备上运行的固件上提供 AES 身份验证。此身份验证可确保您可以相信启动固件既未损坏,也未被篡改。

通过 NVIDIA Turing 架构和 NVIDIA Ampere 架构, NVIDIA 添加了额外的安全功能,包括加密固件、固件撤销、故障注入对策,现在,在 NVIDIA Hopper 中,片上 RoT 和测量/证明启动。

为了在 NVIDIA H100 GPU 上实现机密计算, NVIDIA 需要创建新的安全固件和微码,并在 CUDA 驱动程序中启用支持机密计算的

内容概要:本文详细介绍了NVIDIA H100 Tensor Core GPU的架构设计与技术创新,重点涵盖其在AI、高性能计算(HPC)和数据分析领域的卓越性能表现。H100基于Hopper架构,采用TSMC 4N工艺,集成800亿晶体管,具备132个SM(流式多处理器),支持FP8、TF32、FP64等多种数据格式,显著提升计算吞吐量。其关键特性包括第四代Tensor Core、Transformer引擎、DPX指令加速动态规划、线程块簇、Tensor内存加速器(TMA)、第二代MIG多实例GPU机密计算、HBM3高带宽显存、50MB二级缓存以及第四代NVLink和NVSwitch互连技术,整体性能相较A100提升达6倍。此外,H100支持PCIe 5.0和先进的安全机制,适用于大规模AI训练、推理、基因组学等前沿应用场景。; 适合人群:从事人工智能、高性能计算、数据中心架构、GPU加速计算及相关领域的研发工程师、系统架构师、科研人员和技术决策者;具备一定GPU计算或CUDA编程基础的专业人士。; 使用场景及目标:①用于大规模AI模型(如大语言模型、Transformer)的高效训练与推理;②支撑HPC应用如气候模拟、量子计算、基因组学分析(如Smith-Waterman算法加速);③在多租户云环境中实现安全隔离的MIG实例部署;④构建高性能AI超算集群(如DGX H100和SuperPOD)以实现极致扩展性;⑤在金融、医疗、自动驾驶等领域实现安全机密计算与联合学习。; 阅读建议:此文档为技术白皮书,内容详实专业性强,建议结合NVIDIA官方CUDA文档、开发者工具(如Nsight、DCGM)及实际硬件平台进行深入研读,重点关注Transformer引擎、TMA异步传输、DPX指令优化等新特性在实际算法中的应用与性能调优。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

RZer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值