![](https://img-blog.csdnimg.cn/direct/26866ad6439b4560888987968a11d473.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
DPU&RDMA
文章平均质量分 69
DPU&RDMA
北冥有鱼被烹
这个作者很懒,什么都没留下…
展开
-
Mellanox网卡PCC可编程拥塞控制中配置PPCC寄存器的3种对象、15个cmd_type以及代码三部曲?(algo slot、parameter、counter; 初始化-阻塞等待事件-销毁)
背后本质应该是一个二维数组,并且是在asic的芯片上的资源,然后PPCC这个寄存器是用来给软件留的API来查询的。每个slot里面跑的是某个算法,比如要使能某个算法,就需要cmd_type=1, 并且指定对应的algo_slot。其中algo_slot=x表示去操作哪个algo_slot的信息,这里都是入参,用来指定操作某个slot的信息。会创建pcc进程和其他资源,并且触发pcc的初始化,以及注册pcc到硬件上以让cc事件,以便能够生成事件,以及事件处理函数能够被触发,然后从DPA发送到NIC。原创 2024-07-12 01:12:26 · 647 阅读 · 0 评论 -
【Mellanox微代码】Firmware的9种报错有哪些?
比如使用flint升级如果升级固件未签名会报错:MLXFW_FSM_STATE_ERR_REJECTED_UNSIGNED。Firmware报错是驱动和FW交互后的反馈错误信息。原创 2024-07-09 08:31:18 · 226 阅读 · 0 评论 -
【文化差异】深入扒一扒rdma报文中的syndrome到底是什么意思?(错误的行为( ERROR BEHAVIOR)或者叫做故障行为(fault behavior))
英语是一个显式表征的语言。rdma中经常见到syndrome单词。原创 2024-06-29 02:13:48 · 1042 阅读 · 0 评论 -
tcpdump常见参数汇总
【代码】tcpdump常见参数汇总。原创 2024-06-26 00:44:12 · 292 阅读 · 0 评论 -
RDMA建链的3次握手和断链的4次挥手流程?
双端都需要发送所以累计四次。更多细节以后逐渐补充。原创 2024-06-25 23:56:35 · 1109 阅读 · 0 评论 -
【微信息】Mellanox驱动到Firmware的操作命令有哪些,内核驱动如何将enum打印成字符串?(比如:MLX5_CMD_OP_CREATE_QP)
【代码】【微信息】Mellanox驱动到Firmware的操作命令有哪些?(比如:MLX5_CMD_OP_CREATE_QP)原创 2024-06-25 08:43:55 · 233 阅读 · 0 评论 -
【微命令】Mellanox网卡如何查看网卡中的所有config配置?(mlxconfig -d 42:00.0 q)
d 可以指定BDF,也可以指定类似/dev/mst/mt41686_pciconf0。原创 2024-05-20 00:54:39 · 359 阅读 · 1 评论 -
Mellanox网卡温度过高告警如何查看?(dmesg |grep -i temp)
如果时间长了容易烧卡。原创 2024-05-20 00:42:19 · 311 阅读 · 0 评论 -
【报错处理】ib_write_bw执行遇到Failed to modify QP 358 to RTR原因与解决办法?
QP可以处于不同的状态,其中RTR(Ready to Receive)是QP状态之一,表示QP已经准备好接收消息。两个IB接口并未链接,但是两个IB接口的服务器是能够互通的时候会出现该问题。更改拓扑,让测试的两个port在IB上能够通。比如直连或者交换机处理。命令: ib_write_bw 1.1.1.1。原创 2024-05-19 02:11:47 · 948 阅读 · 0 评论 -
【Mellanox系列之】Mellanox网卡的PCIe形态HHHL和FHHL是什么意思?(Half-Height, Half-Length、Full-Height, Half-Length)
这里的SFF和光模块的SFP是相同的SF都表示小接口。原创 2024-05-08 01:48:31 · 551 阅读 · 0 评论 -
小记录【RDMA系列之】QP的信息在sys文件系统中路径?
可以查看QP的一些属性和信息。原创 2024-05-08 01:33:50 · 403 阅读 · 0 评论 -
【Mellanox系列之】Mellanox系列网卡常用的几种光电接口的分类与一些常见术语?(SFP、QSFP、QSFP28 56 112、OSFP、AOC、DAC、MPO、MTP)
简要记录。参考:原创 2024-05-08 01:19:58 · 670 阅读 · 0 评论 -
【报错处理】ib_write_bw报错Couldn‘t allocate MR处理办法?为什么root能通非root不通?(ulimit -l; /etc/security/limits.conf`)
ulimit是针对每个shell进程的,系统创建shell的时候会根据 /etc/security/limits.conf中来设置默认的限制值。另外要熟悉rdma的mem内存原理,知道锁内存的情况,结合ulimit就打通,从而进行设置和解决无法alloc MR的问题。ib_write_bw默认启动是65536的size。由于ib_write_bw在启动前reg mr的过程会pin mem,这里的pin mem就是锁住内存。在root能够正常执行ib_write_bw,但是在普通用户无法执行。原创 2024-05-08 00:40:37 · 328 阅读 · 0 评论 -
【DPU系列之】DPU上如何查看BFB版本以及ATF、UEFI和FW版本?(/etc/mlnx-release、bfvcheck)
【代码】【DPU系列之】DPU上如何查看BFB版本以及ATF、UEFI和FW版本?原创 2024-05-05 23:33:05 · 312 阅读 · 0 评论 -
【DPU系列之】BlueField DPU的3种工作模式,相互特点以及如何开启和关闭?(ECPF、Zero Trust、NIC;mlxprivhost r p q;mlxconfig;冷重启)
可以看到设置为p之后,ARM和HOST都具有特权。原创 2024-05-05 21:38:09 · 1251 阅读 · 0 评论 -
【DPU系列之】DPU中的ECPF概念是什么?全称是什么?(E CPF对标H CPF;embedded CPU function ownership)
参考:https://docs.nvidia.com/networking/display/bluefielddpuosv460/modes+of+operation原创 2024-05-05 20:39:02 · 308 阅读 · 0 评论 -
【Mellanox系列之】Mellanox查看网卡信息的2个命令以及如何查看连接状态、速率等以及涉及2个RPM工具包?(ibstat、ibv_devinfo;IB diags包和ibverbs包)
这里可以得到2个Mellanox提供的工具rpm来源,一个是infiniband的diags一个是libibverbs提供的tools。ibstat 是infiniband-diags提供的调试工具,侧重点就是在物理设备层面,所以对于网卡更接近。ibstat 是infiniband-diags提供的工具,侧重点就是在物理设备层面,所以对于网卡更接近。(顺带提一句,如果是自己安装的系统,比如anolisos,建议选择全量的命令)ibv_devinfo 是libibverbs提供的工具,侧重点在用户层。原创 2024-05-05 17:49:39 · 1473 阅读 · 0 评论 -
【DPU系列之】Bluefield 2 DPU卡的功能图,ConnectX网卡、ARM OS、Host OS的关系?(通过PCIe Switch连接)
图片来源:https://docs.nvidia.com/networking/display/bluefielddpuosv460/functional+diagram。原创 2024-05-05 17:11:22 · 501 阅读 · 0 评论 -
【DPU系列之】DPU上查看mst status报错MST PCI module is not loaded处理办法以及涉及的2个ko和3条命令?(mst start、status、stop)
使用modprobe自动加载mst_pci,如果系统没有需要单独编译。看到只有mst_pciconf,没有mst_pci。原因是没有加载mst的相关内核driver。再次查看lsmod:可以看到已经加载。原创 2024-05-05 16:49:42 · 599 阅读 · 0 评论 -
【DPU系列之】如何通过带外口登录到DPU上的ARM服务器?(Bluefield2举例)
连接前后在路由器的web端查看新增的设备,并获取IP地址:(可以通过MAC地址进一步确认,网卡的MAC地址在网卡的标签上)。DPU上的ARM服务器可以通过多种方式登录(rshim、IP、带外IP、BMC串口),本文主要记录通过BMC端口登录。可以看到CPU是ARM的A72,有1块芯片(socket),8核,支持32和64bit。需要把DPU的OOB、服务器、用户电脑都连接到同一网络。使用ssh登录到DPU,可以从server端登录,也可以用用户电脑直接登录。可以看到登录成功,另外可以看到oob的IP地址。原创 2024-05-05 16:23:16 · 1103 阅读 · 0 评论 -
【小工具pcie2netdev】一次获取Mellanox网卡eth、ib、IP、PCIe等信息的命令(lspci > bdf > /sys/class/pci_bus > eth > ibdev)
经常为了获取某个IB设备的信息需要多个命令,并且命令之间需要获取PCIe的BDF、获取Eth名字、获取ib名字,然后查询。效率低而且不全面。特此写了个小工具一把刷出来。原创 2024-05-05 13:15:16 · 383 阅读 · 0 评论 -
Nvidia DPU从BF2到BF3的9大重要变化:5升级2增加2迁移1相同(硬件模块布局视角看)
本文主要记录HHHL规格的BF2。图片来源 NV官网。原创 2024-05-04 02:37:51 · 1402 阅读 · 0 评论 -
【Mellanox系列之】PSID是什么?有什么作用?它的4级格式什什么?如何获取?(flint -d x q、board-version-parameter)
比如下图中板卡有3个,分别是241、242和243,可以看到对应PN号的第三位(在PN中代表使用的光纤版本不一样,比如1是单口SFP28,2是双口SFP28,3是双口QSFP28),因为第三位硬件的借口不一样的他的PSID也不一样。也就是从PSID的board型号可以间接了解硬件板卡是不一样的。本文介绍PSID的全称、作用、格式,以及实操查看对应网卡的PSID,再从ReleaseNote中看其他网卡的PSID。PSID是一个ID,是Parameter的ID,是Parameter的set的 ID。原创 2024-05-04 01:15:05 · 933 阅读 · 0 评论 -
【Mellanox命令之】如何查看系统MFT版本是否与OFED和FW匹配?(mst version、rpm -qa|grep mft)
如果出现升级了OFED,以及FW、lib等,但是在Debug中遇到异常。可能与mft版本不匹配有关。那么如何获取mft与OFED、FW之间的匹配关系呢?原创 2024-05-03 00:25:52 · 380 阅读 · 0 评论 -
【RDMA命令系列之】如何安装Mellanox固件管理工具MFT以及RPM包中的66条命令?(Mellanox Firmware Tools:mlxconfig、mlxreg、mst、mstdump)
提供给OEM进行操作的命令,包括cpld更新、格式转换等。相关命令作用、场景与用法后期再通过其他文档更新。可以看到很多常见的命令。原创 2024-05-02 01:08:29 · 1304 阅读 · 0 评论 -
【报错处理】ib_write_bw执行遇到ethernet_read_keys: Couldn‘t read remote address解决办法?
server端启动未指定多qp,client指定多qp出现异常。命令: ib_write_bw 1.1.1.1。server端和client指定相同的qp。原创 2024-05-01 11:28:15 · 815 阅读 · 2 评论 -
【RDMA命令之】ib_write_bw如何启动高性能网卡带宽性能测试(s: ib_write_bw, c: ib_write_bw 1.1.1.1)
不指定IB方式:fill:#333;color:#333;color:#333;fill:none;光纤ServerClient命令: ib_write_bw 1.1.1.1指定IB方式:fill:#333;color:#333;color:#333;fill:none;光纤ServerIB: mlx5_0ClientIB: mlx5_1命令: ib_write_bw --ib-dev=mlx5_1 1.1.1.1。原创 2024-05-01 10:44:18 · 2304 阅读 · 0 评论 -
【报错处理】ib_write_bw执行遇到Found Incompatibility issue with GID types.原因与解决办法
Server设置了IP地址,Client未设置IP地址(初期启动,环境中没有DHCP服务器)。ib_write_bw在Client端连接server时认为使用不同的IP version。命令: ib_write_bw 1.1.1.1。原创 2024-04-30 23:02:11 · 437 阅读 · 0 评论 -
【报错处理】ib_write_bw执行遇到Couldn‘t listen to port 18515原因与解决办法?
要点:相关命令:现象:端口18515被其他程序占用。确认方法:netstat 命令来检查端口的占用情况实操:看到已经被占用client端和server端均使用–port或者-p指定端口(TCP使用的端口)参数说明:指定端口执行命令:解决后效果方法1:实操效果:Server:Client:方法2:实操效果:原理:RDMA建链默认使用18515端口,先基于TCP进行交互建链数据,然后根据建链数据走RDMA通道。也就是建链走ETH通道,实际数据走RDMA通道。原创 2024-04-30 22:47:09 · 479 阅读 · 1 评论 -
【Mellanox网卡PCIe信息之CX4 25G】MCX4121A-ACAT型号显示信息 (lspci -vv -s 0000:04:00.0)
特此记录通用信息归档。本文记录的是MCX4121A-ACAT (Subsystem: Mellanox Technologies Stand-up ConnectX-4 Lx EN, 25GbE dual-port SFP28, PCIe3.0 x8, MCX4121A-ACAT)。因为目前手上只有淘宝购买的CX4网卡,后期有其他网卡逐渐补充。原创 2024-04-28 00:52:12 · 738 阅读 · 0 评论 -
DPDK中的PMD全称是什么?本质是什么?(本质是Driver、是Polling的,异步的)
参考:https://en.wikipedia.org/wiki/Data_Plane_Development_Kithttps://developer.nvidia.com/networking/dpdk原创 2024-04-23 01:27:56 · 324 阅读 · 0 评论 -
【DPU微知识】NVIDIA-BlueFiled DPU概念之:BFB是什么?
ipmitool工具使用rshim。bfb-install工具。原创 2024-04-03 08:47:18 · 999 阅读 · 0 评论 -
拥塞控制算法系列之:Swift-谷歌2020年SIGCOM-包级别端到端TIMELY拥塞控制算法
核心要点:其他:参考:https://zhuanlan.zhihu.com/p/566563035https://baike.baidu.com/item/AIMD/10641459?fr=ge_ala原创 2024-04-01 02:01:36 · 1178 阅读 · 1 评论 -
Mellanox特性系列之: ZTR(Zero Touch RoCE)技术 是什么?零接触 RoCE 技术,本质是使用RTT不用配置PFC和ECN水位等
如果需要,可以强制使用ZTR-RTTCC,即使RDMA-CM尚未同步状态。通过mlxreg命令来实现。完成上述步骤后,当使用RDMA-CM(RoCE CM)进行连接建立时,将自动使用ZTR-RTTCC。将ROCE_CC_LEGACY_DCQCN设置为0,从而启用ZTR-RTTCC算法。在更改配置后,重置网络设备或者重启主机以使更改生效。原创 2024-03-31 23:59:56 · 1180 阅读 · 0 评论 -
Mellanox特性系列之:ASAP2 是什么?(本质OVS硬件卸载)
处理 NIC 硬件中的 OVS 数据平面来卸载 OVS。原创 2024-03-18 08:45:22 · 434 阅读 · 0 评论 -
【笔记】Mellanox 公司的一些历史信息
Yokneam: 上约克内阿姆是以色列的城市,位於該國北部,面積7.39平方公里,海拔高度166米,2012年人口18,700,人口密度每平方公里2,530人。2020 年并入 Nvidia 的网络部门,Nvidia 停止在其新网络产品中使用品牌名称“Mellanox”。Mellanox成立于1999年5月,由英特尔的前以色列高管在以色列的Yokneam(上约克内阿姆)创立。主要产品:网络适配器(ETH\IB)、交换机和电缆。Spectrum系列ETH交换机。Quantum系列IB交换机。原创 2024-03-17 02:11:06 · 660 阅读 · 0 评论 -
ROCEv2中Ethernet Type和PORT分别是多少?
(0x)8915 4791原创 2024-01-10 01:42:21 · 378 阅读 · 0 评论 -
RDMA主要三大优势核心原理是什么?
三大优势:- Zero Copy:零拷贝- Kenel Bypass:内核旁路- No CPU Involvement:无CPU参与原创 2024-01-10 01:16:08 · 481 阅读 · 0 评论 -
交换机避免拥塞对于ingress的队列buffer是越大越好吗?
不是。越大 报文停留越久 latency越大。原创 2024-01-10 00:19:52 · 426 阅读 · 0 评论 -
PFC原理与PFC常见问题
PFC(Priority-based Flow Control,基于优先级的流量控制)。 PFC是一种流控的手段,是影响和生效在交换机上的行为,核心原理是下游控制上游某个通道开启和停止发送数据包,控制方式是发送PFC Pause和Resume帧,触发时机是根据下游SW的ingress的队列数量是否达到某个阈值原创 2024-01-10 00:02:57 · 1160 阅读 · 1 评论