科研服务器
文章平均质量分 88
神经蛙没头脑
专注于高性能计算科研服务器
展开
-
A100/H100/GH200集群:网络架构及光模块需求
由于NVLink 4.0对应互联带宽双向聚合是900GB/s,单向为450GB/s,则256卡的集群中,接入层总上行带宽为115200GB/s,考虑胖树架构以及800G光模块传输速率(100GB/s),800G光模块总需求为2304块。RSC项目第二阶段,Meta总计部署2000台A100服务器,包含16000张A100 GPU,集群共包含2000台交换机、48000条链路,对应三层CLOS网络架构,若采用全光网络,对应9.6万个200G光模块,即A100:光模块=1:6,与前文测算的A100架构相同。转载 2024-04-11 19:07:40 · 370 阅读 · 0 评论 -
紧跟“智算中心”这波大行情!人工智能引领算力基建革命!
,转载 2024-04-11 19:05:05 · 52 阅读 · 0 评论 -
Nvidia B100/B200/GB200 关键技术解读
B200 GPU的数量是现有H100的两倍多,但B200封装了2080亿个晶体管(而H100/H200上为800亿个)。这意味着B200芯片封装密度比H100进一步提高,对管理散热和功耗也提出了更高的要求。引入一种新的计算精度,位宽比FP8进一步降低,B200峰值算力达18P。位宽介于FP4和FP8之间。B200有两个Die,高速连接通道NV-HBI达到10TB/s。两个Die是一个统一的Cuda GPU。NV-HBI会占用一定的芯片面积。转载 2024-04-07 08:54:24 · 1246 阅读 · 0 评论 -
AI核弹B200发布:超级GPU新架构30倍H100单机可训15个GPT-4模型,AI进入新摩尔时代
「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的 GTC 大会开始了。今年的 GTC 大会伴随着生成式 AI 技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。而英伟达带来的产品,再次将 AI 芯片的标杆推向了难以想象的高度。「通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。」黄仁勋说道。「这不是为了降低成本,而是为了扩大规转载 2024-04-07 08:53:42 · 61 阅读 · 0 评论 -
2024年最新:一文看懂英伟达显卡B100、H200、L40S、A100、A800、H100、H800、V100如何选择,附架构技术和性能对比
Ampere 架构的 GPU 采用了多个[流多处理器](SM)和更大的总线宽度,提供了更多的 CUDA Core 和更高的频率。而受到影响较大的还是 NVlink 上的削减,但是因为架构上的升级,虽然比不上同为 Hopper 架构的 H100,但是比 ampere 架构的 A800 还是要强上不少的。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。转载 2024-04-04 17:13:24 · 771 阅读 · 0 评论 -
互联:高性能计算的“革命之路”
NVLink Switch(NVS)则是基于NVLink的互联网络的组成部分,可以实现多个服务器中的GPU直联,NVS不但绕开了服务器内PCIe互联,还绕开了服务器间的以太网通讯,使得跨服务器的GPU通讯路径从原来的6步省略到2步,极大的降低了GPU通讯延迟,从而增强AI大模型计算中数据同步的效率,为AI大模型的计算提供了跨服务器集群解决方案。与此同时,专用的互联芯粒技术也在崛起。同时,集成die-to-die 3D接口,Cache等模块,以实现更高效的垂直互联,最大程度的减少存储本身带来的延迟和功耗。转载 2024-04-04 17:10:59 · 129 阅读 · 0 评论 -
英伟达 vs. 华为海思:GPU性能一览
NVIDIA NVLink采用全网状拓扑,如下所示,(双向)GPU-to-GPU 最大带宽可达到400GB/s (需要注意的是,下方展示的是8*A100模块时的600GB/s速率,8*A800也是类似的全网状拓扑);和华为/海思主流 GPU 的型号性能,供个人参考使用,文中使用数据均源自官网。本文转自SDNLAB,编译自arthurchiao的博客,主要介绍了。以上内容来自架构师联盟。转载 2024-04-04 17:05:43 · 1352 阅读 · 0 评论 -
常用生信软件汇总(附部分高校生物信息学中心)
以上内容来自 CSDN博主「wangchuang2017」转载 2024-04-04 16:57:06 · 77 阅读 · 0 评论 -
内网穿透详解
阅读本文前需要先搞懂NAT、PAT、端口映射几个概念,前面我有写了一篇关于这几个概念的博文。根据之前的博文我们已经知道,内网宽带中的主机可以访问公网宽带主机,反之不可以访问;公网宽带主机可以和公网宽带主机双向访问;内网宽带中的主机和内网宽带中的主机互相无法访问。那么内网宽带中的客户机和公网宽带中的客户机如何访问另一个内网宽带中的服务器呢?这里就需要用到内网穿透技术。转载 2024-04-04 16:53:10 · 425 阅读 · 1 评论 -
星闪的 “ 遥遥领先 ”
不仅能利用现有数据,还可以通过对环境的探索获得新数据,并利用新数据循环往复地更新迭代现有模型的机器学习算法。在传输速率上,星闪是碾压蓝牙的,至于更快的 WiFi 6 和 7,现在的普及率又有多少呢?并且两者独立发展了几十年,在各自的道路上渐行渐远,消费者们曾经期盼的 “ 蓝牙-WiFi ” 互联终究没有到来。而某些大厂私有蓝牙能达到 15 毫秒的延迟,Wi-Fi 目前的延迟最低为 10 毫秒。而目前最新的蓝牙最大连接数是 8 台,Wi-Fi7 是 256 台。但是星闪的领先是 “ 革命性 ” 的。转载 2024-04-04 16:44:30 · 40 阅读 · 1 评论 -
一文看懂英伟达A100、A800、H100、H800各个版本有什么区别?
虽然对于这些国产AI芯片厂商来说,美国的新的AI芯片限制政策是一个利好消息,但是对于国内依赖于高性能AI芯片提供AI硬件的厂商、以及提供AI服务的互联网厂商及一些AI技术厂商来说则是一个利空,毕竟如果缺少了强大的AI芯片的支撑,那么其AI技术的发展及所能够提供的AI服务也将受到负面影响。,在目前供需失衡不正常的市场情况下,市面大部分商家是无法供应的,甚至提供不属实的信息,如果是科研服务器的话首选风虎云龙科研服务器,入围政采,品质和售后服务都有保障。,其中就包括了对于高性能计算芯片对中国大陆的出口限制。转载 2024-04-04 16:40:21 · 16974 阅读 · 1 评论 -
详解-英伟达H100 GPU:供需
但是,如果您关心成本或使用已有的基础设施,这不是一个严格的要求。例如,硬件方面的TPU,Inferentia,LLM ASIC和其他产品,以及软件方面的Mojo,Triton和其他产品,以及使用AMD硬件和软件的样子。但例如,Azure说“嘿,我们希望Inflection使用10,000个H100”与Azure说“嘿,我们希望Azure的云使用10,000个H100”是不同的 - Nvidia关心谁是最终客户,因此如果Nvidia对最终客户感到兴奋,云可能能够为特定的最终客户获得额外的分配。转载 2024-04-04 16:37:30 · 433 阅读 · 1 评论 -
NVIDIA DGX 与 NVIDIA HGX 有什么区别
这些包括更密集的解决方案、用于更多内核的基于 AMD 或 ARM 的 CPU 解决方案、不同的 Xeon SKU 级别、不同的 RAM 配置、不同的存储配置,甚至不同的 NIC。NVIDIA 还有其他主板,例如称为 Redstone 和 Restone Next 的 4x GPU 组件,但主要的 DGX/HGX (Next) 平台是使用 SXM 的 8x GPU 平台。对于最新一代的“Hopper”,散热器必须变得更高,以适应更高功率的 GPU 以及更高性能的 NVSwitch 架构。转载 2023-08-16 10:48:28 · 601 阅读 · 1 评论