network
文章平均质量分 94
阿拉斯加大闸蟹
JDcloud;ByteDance;XueQiu;YiChe;CATARC
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
P4编程理论与实践
本文首先介绍了P4编程语言的基本概念和工作原理。P4是一种用于软件定义网络(SDN)的数据面编程语言,通过定义解析器、匹配动作表和流水线等组件,实现对网络数据包处理的灵活控制。文章详细分析了P4的语法结构,包括Header定义、Parser状态机、Table匹配规则和Action操作等核心元素,并通过basic.p4实例展示了P4程序的完整结构。 其次,文章探讨了DPDK的基本原理和初始化过程。DPDK通过用户态驱动和轮询机制提升网络包处理性能,其核心组件包括EAL环境抽象层、内存管理和多核调度等。作者通过原创 2026-01-05 23:00:00 · 1085 阅读 · 0 评论 -
NVIDIA GH200 芯片、服务器及集群组网(2024)
摘要:NVIDIA新一代GH200超级芯片将CPU(Grace ARM)、GPU(H200)及内存高度集成,打破传统x86+GPU服务器架构。该芯片通过900GB/s的NVLink-C2C互连,实现624GB统一内存空间和超分显存功能。LPDDR5X内存带宽较DDR5提升53%且功耗降低87.5%,支持144GB HBM3e显存(4.9TB/s)。产品形态包括单卡PCIe节点和32卡全互联NVL32机柜,后者可构建19.5TB内存的AI算力单元。GH200标志着数据中心从CPU中心转向以GPU为核心的异构计转载 2025-10-24 10:35:52 · 673 阅读 · 0 评论 -
NVDIA 高性能 GPU 服务器硬件拓扑与集群组网
本文系统地介绍了GPU训练集群的硬件架构与互联技术,重点分析了NVIDIA主流GPU服务器的内部拓扑结构。文章首先阐述了PCIe交换芯片、NVLink、NVSwitch等核心组件的工作原理,并对比了不同代际NVLink和HBM的性能差异。随后详细拆解了8卡A100/A800、H100/H800、L40S等典型服务器的硬件拓扑,包括PCIe层级、NVLink互联方式及网络配置方案。文章特别指出L40S机型通过去除NVLink降低了成本,但需要依赖200Gbps网络实现卡间通信。最后介绍了面向中国市场的H20配转载 2025-10-24 10:32:59 · 325 阅读 · 0 评论 -
GPU 进阶 华为昇腾 910B GPU 相关
华为昇腾GPU与NVIDIA产品对照解析 本文系统介绍了华为昇腾GPU产品与NVIDIA的对应关系及技术特点。核心内容包括: 术语对照:华为NPU/GPU对应NVIDIA GPU,HCCS类似NVLink,CANN对应CUDA 产品线:训练卡昇腾910B对标A100/A800,推理卡Atlas300对标T4 硬件配置:以8卡910B训练机为例,采用鲲鹏920 ARM CPU、24*64GB内存、200G RDMA网卡,功耗仅4.5KW(x86需12KW) 关键技术:HCCS卡间互连带宽达392GB/s,配套转载 2025-10-24 10:34:13 · 704 阅读 · 0 评论 -
OPPO RDMA 在典型场景下的技术应用
OPPO在典型业务场景中应用RDMA技术的实践与经验总结。文章分析了三种适配场景:机器学习/分布式存储等可直接使用社区成熟方案;RPC类通信需修改接口调用方式;私有通信协议需解耦业务与网络IO。重点以Redis改造为例,详细阐述了如何基于RDMA特性重构网络传输层,包括连接管理、事件处理等核心模块的实现方案,并指出改造过程中的关键点和潜在挑战。文中提出的分层改造思路和具体实现方法,为类似业务系统的RDMA迁移提供了有价值的参考。转载 2025-10-10 17:40:52 · 1117 阅读 · 0 评论 -
[SIGCOMM‘24] R-Pingmesh: A Service-Aware RoCE Network Monitoring and Diagnostic System
R-Pingmesh是首个基于端到端探测的服务感知RoCE网络监控系统,能准确测量网络延迟和主机处理时延,区分网卡与网络丢包,判断问题根源。该系统采用商用RDMA网卡,包含Agent、Controller和Analyzer三个模块,覆盖集群监控和服务跟踪功能。部署测试显示其问题定位准确率达85%,成功检测14类问题,包括硬件故障、配置错误和网络拥塞等。未来研究方向包括适配IB集群、GPU异常检测和自动诊断等。该系统已在数万RNIC上部署,成为RoCE网络关键监测工具。原创 2025-10-10 17:42:33 · 1914 阅读 · 0 评论 -
快手DHPS 基于RDMA 通信的可负载均衡高性能服务架构
摘要:快手研发的DHPS架构通过创新性改造,构建了国内首个基于RDMA通信的高性能在线服务系统。该架构采用端网协同设计,包含三大核心模块:构建支持AZ级部署的四层网络、自主研发高性能存储引擎和RDMA通信库、实现智能流量调度。存储引擎采用12路CuckooHash索引和SIMD优化技术,查询吞吐提升270%;通信库实现RDMA与TCP自动切换,网络延迟降低35%。整套系统在200节点规模下实现99.999%可用性,存储节点从200台缩减至个位数,机器成本节省70%。该架构不仅支持推荐大模型落地,其基础设施还转载 2025-10-10 17:41:48 · 1123 阅读 · 0 评论 -
[SIGCOMM‘24] Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis
微软数据中心网络监控系统Pingmesh的设计与实践:通过分层采样和TCP/HTTP探测实现大规模数据中心网络延迟测量与分析。系统采用Controller-Agent架构,Controller生成智能探测列表,Agent执行10s间隔的端点探测并将结果存入Cosmos。通过5min-1天的多粒度分析,实现99.99%延迟在100ms内的SLA监控,并能自动识别交换机静默丢包等故障。相比传统N^2复杂度方案,Pingmesh在微软每日处理2千亿次探测,形成24TB监控数据,为网络故障诊断提供可靠依据。关键设计原创 2025-10-10 17:43:05 · 1983 阅读 · 0 评论 -
[SIGCOMM‘25] Revisiting RDMA Reliability for Lossy Fabrics
摘要:针对AI算力激增带来的智算网络挑战,华为提出DCP(数据控制分离)技术,重构RDMA可靠性设计。DCP通过区分数据平面(有损)和控制平面(无损),结合交换机Packet Trimming和加权轮询调度,消除PFC依赖,兼容多路径传输。实验显示,DCP在丢包恢复效率上提升1.6-72倍,AI任务完成时间降低42%,支持百公里长距传输。该技术是华为AI原生传输(ANT)方案的关键特性,为大规模智算网络提供高性能传输支持。原创 2025-10-10 17:44:25 · 1812 阅读 · 0 评论 -
【百度】智能云大规模 AI 高性能网络的设计与实践
百度智能云AIPod高性能网络设计满足大模型训练的三大核心需求:超大规模、超高带宽和超长稳定。针对千亿参数大模型训练所需的分布式并行计算,AIPod采用8通道CLOS架构设计,支持超16K GPU规模,通过无收敛网络拓扑和RDMA技术实现单卡20GB/s的Allreduce带宽。在网络稳定性方面,创新性地采用动态负载均衡、黑盒探测和性能透视平台等技术,将硬件故障影响控制在秒级。实践表明,该网络能支持千卡规模任务持续稳定运行,单卡通信带宽达百G水平。AIPod作为AI大底座的核心组件,显著提升了大模型训练效率转载 2025-10-10 17:45:57 · 1152 阅读 · 0 评论 -
[SIGCOMM‘24] Alibaba HPN: A Data Center Network for Large Language Model Training
阿里云HPN数据中心网络针对大语言模型(LLM)训练进行了优化设计。传统数据中心网络存在负载均衡问题和单点故障风险,无法满足LLM训练的高流量突发性和高可靠性需求。HPN采用去堆叠双上联+双网络平面+大二层架构,通过减少哈希运算次数解决负载不均衡问题,并提升容错能力。单Pod可支持15K GPU,跨Pod支持100K GPU规模,训练性能提升14.9%,故障恢复时间显著缩短。该架构有效解决了LLM训练中的网络性能瓶颈和可靠性挑战。原创 2025-10-10 17:43:38 · 1998 阅读 · 0 评论 -
弹性 RDMA 的技术解析与实践
摘要: 阿里云推出的弹性RDMA(eRDMA)技术通过复用VPC网络,结合自研拥塞控制算法,实现了高吞吐、低延迟的大规模RDMA组网能力。eRDMA完整兼容现有RDMA生态,支持200Gbps带宽和8μs延迟,适用于AI、HPC等高性能场景。相比传统TCP,eRDMA在Redis、Spark等应用中可提升性能30%-130%。其关键技术包括基于VPC的Overlay RDMA部署、自研CC算法和HPCC拥塞管理,同时保持云服务器的热迁移、热升级特性。测试显示,eRDMA加速Redis性能达TCP的2.46倍转载 2025-09-10 11:22:50 · 1388 阅读 · 0 评论 -
LSF 作业负载管理
摘要:LSF作业生命周期包含提交、排队、调度、执行和返回结果等阶段。使用bsub命令提交作业时可指定参数修改默认行为,作业需提交到配置了优先级、资源限制等特性的队列中。LSF根据用户权限、节点限制、资源需求等条件自动选择合适队列,并基于队列优先级、公平共享等策略调度作业。节点选择时检查主机负载、资源匹配度等条件,确保在最优节点执行。作业执行时会继承提交主机的环境变量和工作目录。(149字)原创 2025-09-10 11:21:15 · 1813 阅读 · 0 评论 -
RDMA和RoCE有损无损
拥塞问题:ReactionPoint 响应端(发送方网卡) --------------- Congestion Point 拥塞点交换机 -------------------- NotificationPoint 通知发起方(接收方网卡)原创 2025-09-10 11:20:35 · 1788 阅读 · 0 评论 -
基础网络全科普
BGP是什么?BGP是如何工作的?- 华为。原创 2025-08-06 10:04:47 · 3374 阅读 · 0 评论 -
DPDK全科普
NUMA来源于微架构,处理器和本地内存之间有更小的延迟和更大的带宽;每个处理器还可以有自己的总线。处理器访问本地的总线和内存时延迟低,而访问远程资源时则要高。DPDK充分利用了NUMA的特点,每个核都有自己的内存,一方面是本地内存的需要,另一方面也是为了cache一致性用本地处理器和本地内存处理本地设备上产生的数据处理器核数(cpu cores):每个物理CPUcore的个数逻辑处理器核心数(siblings):单个物理处理器超线程的个数系统物理处理器封装ID(原创 2025-08-06 09:58:49 · 3760 阅读 · 0 评论 -
MySQL连接池周期性失败--ipvs组件主动断开15m未活动的TCP长连接
业务Pod,每隔10分钟创建1个MySQL连接,总共创建5个,单个连接在15分钟内没有被复用,空闲时间超过IPVS阈值,被kill了。Pod日志=======IPVS Conns======0:00 Conn160:0065:0070:0075:0080:0085:0090:0095:00100:00。原创 2023-03-01 17:20:19 · 9406 阅读 · 0 评论 -
K8S DNS解析过程和延迟问题
5、如果本地DNS服务器本地区域文件与缓存解析都失效,则根据本地DNS服务器的设置(是否设置转发器)进行查询,如果未用转发模式,本地DNS就把请求发至13台根DNS,根DNS服务器收到请求后会判断这个域名(.com)是谁来授权管理,并会返回一个负责该顶级域名服务器的一个IP。本地DNS服务器收到IP信息后,将会联系负责.com域的这台服务器。6、如果用的是转发模式,此DNS服务器就会把请求转发至上一级DNS服务器,由上一级服务器进行解析,上一级服务器如果不能解析,或找根DNS或把请求转至上上级,以此循环。原创 2023-02-20 15:00:21 · 12066 阅读 · 0 评论 -
OpenStack网络
虚机的创建和管理是Nova的任务,虚机网络的创建和管理是Neutron的任务,而虚机网卡,作为连接虚机和虚机网络的桥梁,其创建和管理则同时涉及了Nova和Neutron。VPC代表了不同的租户,vpc隔离了租户,每个租户的子网之间也是隔离的。通过vxlan封装物理机中的使用vlan划分的虚拟机,可以将一个vpc中的vlan信息发送到另一个vpc中,从而达到不同vpc的主机的二层通信。它的北向有自己的RESTAPI,它在中间有自己的业务逻辑层,它有自己的DB,有自己的用于进程间通讯的消息机制。...原创 2022-07-22 14:57:33 · 11502 阅读 · 1 评论
分享