11分钟训完GPT-3!英伟达H100 横扫MLPerf 8项基准测试,下一代显卡25年发布

NVIDIA的H100GPU在MLPerf训练基准测试中表现出色,特别是在LLM基准测试中,3584个H100GPU仅用11分钟就完成了GPT-3模型的训练。这归功于H100的Transformer引擎和高效的GPU间通信设计。英伟达的GPU在AI训练领域的主导地位显著,其软件生态系统和全栈AI解决方案也是关键因素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编辑切换为居中

添加图片注释,不超过 140 字(可选)

来源 | 新智源 ID | AI-era

最新MLPerf训练基准测试中,H100 GPU在所有的八项测试中都创下了新纪录!

如今,NVIDIA H100几乎已经统治了所有类别,并且是新LLM基准测试中使用的唯一 的GPU。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

3,584个H100 GPU群在短短11分钟内完成了基于GPT-3的大规模基准测试。

MLPerf LLM基准测试是基于OpenAI的GPT-3模型进行的,包含1750亿个参数。

Lambda Labs估计,训练这样一个大模型需要大约3.14E23 FLOPS的计算量。

编辑

添加图片注释,不超过 140 字(可选)

11分钟训出GPT-3的怪兽是如何构成的在LLM和BERT自然语言处理 (NLP) 基准测试中排名最高的系统,是由NVIDIA和Inflection AI联合开发。由专门从事企业级GPU加速工作负载的云服务提供商CoreWeave托管。该系统结合了3584个NVIDIA H100加速器和896个Intel Xeon Platinum 8462Y+处理器。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

因为英伟达在H100中引入了新的Transformer引擎,专门用于加速Transformer模型训练和推理,将训练速度提高了6倍。CoreWeave从云端提供的性能与英伟达从本地数据中心运行的AI超级计算机所能提供的性能已经非常接近了。这得益于CoreWeave使用的NVIDIA Quantum-2 InfiniBand网络具有低延迟网络。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

随着参与训练的H100 GPU从数百个扩展到3000多个。良好的优化使得整个技术堆栈在要求严苛的LLM测试中实现了近乎线性的性能扩展。如果将GPU的数量降低到一半,训练相同的模型时间会增加到24分钟。说明整个系统的效率潜力,随着GPU的增加,是超线性的。最主要的原因是,英伟达从GPU设计之初就考虑到了这个问题,使用NVLink技术来高效实现了GPU之间的通信。

编辑

添加图片注释,不超过 140 字(可选)

在参与测试的90个系统中,有82个系统都使用了英伟达的GPU进行加速。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

单卡训练效率

编辑切换为居中

添加图片注释,不超过 140 字(可选)

系统集群训练时间对比英特尔参加测评的系统使用64到96个不等的Intel Xeon Platinum 8380 处理器和256到389个不等的Intel Habana Gaudi2加速器。然而,英特尔提交的GPT-3的训练时间为311分钟。成绩和英伟达相比就稍微有点惨不忍睹了。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

分析师:英伟达优势过大

行业分析师认为,英伟达的在GPU上的技术优势是非常明显的。

而它作为AI基础设施提供商,在行业中的主导地位还体现在英伟达多年建立起来的生态系统粘性上。AI社区对英伟达的软件的依赖性也非常强。几乎所有AI框架都基于英伟达提供的底层CUDA库和工具。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

而且它还能提供全堆栈的AI工具和解决方案。除了为AI开发人员提供支持之外,英伟达还继续投资用于管理工作负载和模型的企业级工具。在可预见的未来,英伟达在行业的领先地位将会非常稳固。分析师还进一步指出。MLPerf测试结果中所展现的,NVIDIA系统在云端进行AI训练的强大功能和效率,才是英伟达「战未来」的最大本钱。

编辑

添加图片注释,不超过 140 字(可选)

下一代Ada Lovelace GPU,2025年发布

Tom's Hardware自由撰稿人Zhiye Liu也于近日发文,介绍了下一代英伟达Ada Lovelace显卡的计划。

H100训练大模型的能力,毋庸置疑。只用3584个H100,短短11分钟内,就能训练出一个GPT-3模型。在最近的新闻发布会上,英伟达分享了一份新路线图,详细介绍了下一代产品,包括GeForce RTX 40系列Ada Lovelace GPU的继任者,而前者,是当今最好的游戏显卡。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

根据路线图,英伟达计划在2025年推出「Ada Lovelace-Next」显卡。如果继续沿用当前的命名方案,下一代GeForce产品应该是作为GeForce RTX 50系列上市。根据南美黑客组织LAPSU$得到的信息,Hopper Next很可能被命名为Blackwell。在消费级显卡上,英伟达保持着两年一更新的节奏。他们在2016年推出了Pascal,在2018年推出了Turing,在2020年推出了Ampere,在2022年推出了Ada Lovelace。如果这次Ada Lovelace的继任者会在2025年推出,英伟达无疑就打破了通常的节奏。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

最近的AI大爆发,产生了对英伟达GPU的巨大需求,无论是最新的H100,还是上一代的A100。根据报道,某大厂今年就订购了价值10亿美元的Nvidia GPU。尽管有出口限制,但我国仍然是英伟达在全世界最大的市场之一。(据说,在深圳华强北电子市场,就可以买到少量英伟达A100,每块售价为2万美元,是通常价格的两倍。)对此,英伟达已经对某些AI产品做了微调,发布了H100或A800等特定SKU,以满足出口要求。

编辑

添加图片注释,不超过 140 字(可选)

Zhiye Liu对此分析道,换个角度看,出口法规其实是有利于英伟达的,因为这意味着芯片制造商客户必须购买更多原版GPU的变体,才能获得同等的性能。这也就能理解,为什么英伟达会优先考虑生成计算GPU,而非游戏GPU了。最近的报道显示,英伟达已经增加了计算级GPU的产量。没有面临来自AMD的RDNA 3产品堆栈的激烈竞争,英特尔也没有对GPU双头垄断构成严重威胁,因此,英伟达在消费侧可以拖延。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

最近,Nvidia通过GeForce RTX 4060和GeForce RTX 4060 Ti,将其GeForce RTX 40系列产品堆栈又扩大了。GeForce RTX 4050以及顶部的RTX 4080 Ti或GeForce RTX 4090 Ti等,都有潜力。如果迫不得已,英伟达还可以从旧的Turing版本中拿出一个产品,更新Ada Lovelace,给它封个「Super」待遇,进一步扩展Ada阵容。最后,Zhiye Liu表示,至少今年或明年,Lovelace架构不会真正更新。参考资料:https://blogs.nvidia.com/blog/2023/06/27/generative-ai-debut-mlperf/

标题“51单片机通过MPU6050-DMP获取姿态角例程”解析 “51单片机通过MPU6050-DMP获取姿态角例程”是一个基于51系列单片机(一种常见的8位微控制器)的程序示例,用于读取MPU6050传感器的数据,并通过其内置的数字运动处理器(DMP)计算设备的姿态角(如倾斜角度、旋转角度等)。MPU6050是一款集成三轴加速度计和三轴陀螺仪的六自由度传感器,广泛应用于运动控制和姿态检测领域。该例程利用MPU6050的DMP功能,由DMP处理复杂的运动学算法,例如姿态融合,将加速度计和陀螺仪的数据进行整合,从而提供稳定且实时的姿态估计,减轻主控MCU的计算负担。最终,姿态角数据通过LCD1602显示屏以字符形式可视化展示,为用户提供直观的反馈。 从标签“51单片机 6050”可知,该目主要涉及51单片机和MPU6050传感器这两个关键硬件组件。51单片机基于8051内核,因编程简单、成本低而被广泛应用;MPU6050作为惯性测量单元(IMU),可测量设备的线性和角速度。文件名“51-DMP-NET”可能表示这是一个与51单片机及DMP相关的网络资源或代码库,其中可能包含C语言等适合51单片机的编程语言的源代码、配置文件、用户手册、示例程序,以及可能的调试工具或IDE目文件。 实现该目需以下步骤:首先是硬件连接,将51单片机与MPU6050通过I2C接口正确连接,同时将LCD1602连接到51单片机的串行数据线和控制线上;接着是初始化设置,配置51单片机的I/O端口,初始化I2C通信协议,设置MPU6050的工作模式和数据输出速率;然后是DMP配置,启用MPU6050的DMP功能,加载预编译的DMP固件,并设置DMP输出数据的中断;之后是数据读取,通过中断服务程序从DMP接收姿态角数据,数据通常以四元数或欧拉角形式呈现;再接着是数据显示,将姿态角数据转换为可读的度数格
MathorCup高校数学建模挑战赛是一旨在提升学生数学应用、创新和团队协作能力的度竞赛。参赛团队需在规定时间内解决实际问题,运用数学建模方法进行分析并提出解决方案。2021第十一届比赛的D题就是一个典型例子。 MATLAB是解决这类问题的常用工具。它是一款强大的数值计算和编程软件,广泛应用于数学建模、数据分析和科学计算。MATLAB拥有丰富的函数库,涵盖线性代数、统计分析、优化算法、信号处理等多种数学操作,方便参赛者构建模型和实现算法。 在提供的文件列表中,有几个关键文件: d题论文(1).docx:这可能是参赛队伍对D题的解答报告,详细记录了他们对问题的理解、建模过程、求解方法和结果分析。 D_1.m、ratio.m、importfile.m、Untitled.m、changf.m、pailiezuhe.m、huitu.m:这些是MATLAB源代码文件,每个文件可能对应一个特定的计算步骤或功能。例如: D_1.m 可能是主要的建模代码; ratio.m 可能用于计算某种比例或比率; importfile.m 可能用于导入数据; Untitled.m 可能是未命名的脚本,包含临时或测试代码; changf.m 可能涉及函数变换; pailiezuhe.m 可能与矩阵的排列组合相关; huitu.m 可能用于绘制回路图或流程图。 matlab111.mat:这是一个MATLAB数据文件,存储了变量或矩阵等数据,可能用于后续计算或分析。 D-date.mat:这个文件可能包含与D题相关的特定日期数据,或是模拟过程中用到的时间序列数据。 从这些文件可以推测,参赛队伍可能利用MATLAB成了数据预处理、模型构建、数值模拟和结果可视化等一系列工作。然而,具体的建模细节和解决方案需要查看解压后的文件内容才能深入了解。 在数学建模过程中,团队需深入理解问题本质,选择合适的数学模
以下是关于三种绘制云图或等高线图算法的介绍: 一、点距离反比插值算法 该算法的核心思想是基于已知数据点的值,计算未知点的值。它认为未知点的值与周围已知点的值相关,且这种关系与距离呈反比。即距离未知点越近的已知点,对未知点值的影响越大。具体来说,先确定未知点周围若干个已知数据点,计算这些已知点到未知点的距离,然后根据距离的倒数对已知点的值进行加权求和,最终得到未知点的值。这种方法简单直观,适用于数据点分布相对均匀的情况,能较好地反映数据在空间上的变化趋势。 二、双线性插值算法 这种算法主要用于处理二维数据的插值问题。它首先将数据点所在的区域划分为一个个小的矩形单元。当需要计算某个未知点的值时,先找到该点所在的矩形单元,然后利用矩形单元四个顶点的已知值进行插值计算。具体过程是先在矩形单元的一对对边上分别进行线性插值,得到两个中间值,再对这两个中间值进行线性插值,最终得到未知点的值。双线性插值能够较为平滑地过渡数据值,特别适合处理图像缩放、地理数据等二维场景中的插值问题,能有效避免插值结果出现明显的突变。 三、面距离反比 + 双线性插值算法 这是一种结合了面距离反比和双线性插值两种方法的算法。它既考虑了数据点所在平面区域对未知点值的影响,又利用了双线性插值的平滑特性。在计算未知点的值时,先根据面距离反比的思想,确定与未知点所在平面区域相关的已知数据点集合,这些点对该平面区域的值有较大影响。然后在这些已知点构成的区域内,采用双线性插值的方法进行进一步的插值计算。这种方法综合了两种算法的优点,既能够较好地反映数据在空间上的整体分布情况,又能保证插值结果的平滑性,适用于对插值精度和数据平滑性要求较高的复杂场景。
内容概要:本文详细介绍并展示了基于Java技术实现的微信小程序外卖点餐系统的设计与实现。该系统旨在通过现代信息技术手段,提升外卖点餐管理的效率和用户体验。系统涵盖管理员、外卖员、餐厅和用户四个角色,提供了包括菜品管理、订单管理、外卖员管理、用户管理等功能模块。后台采用SSM框架(Spring + Spring MVC + MyBatis)进行开发,前端使用微信小程序,数据库采用MySQL,确保系统的稳定性和安全性。系统设计遵循有效性、高可靠性、高安全性、先进性和采用标准技术的原则,以满足不同用户的需求。此外,文章还进行了详细的可行性分析和技术选型,确保系统开发的合理性与可行性。 适用人群:计算机科学与技术专业的学生、从事Java开发的技术人员、对微信小程序开发感兴趣的开发者。 使用场景及目标:①为中小型餐饮企业提供低成本、高效的外卖管理解决方案;②提升外卖点餐的用户体验,实现便捷的点餐、支付和评价功能;③帮助传统餐饮企业通过数字化工具重构消费场景,实现线上线下一体化运营。 其他说明:该系统通过详细的系统分析、设计和实现,确保了系统的稳定性和易用性。系统不仅具备丰富的功能,还注重用户体验和数据安全。通过本目的开发,作者不仅掌握了微信小程序和Java开发技术,还提升了独立解决问题的能力。系统未来仍需进一步优化和善,特别是在功能模块的细化和用户体验
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lqfarmer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值