- 博客(33)
- 收藏
- 关注
原创 《服务器测试百日学习计划——Day17:NUMA基础与拓扑,为什么总量不是性能的全部》
本文是服务器测试百日学习计划第17天的内容,重点讲解NUMA(非一致性内存访问)的基础知识与拓扑结构。文章指出仅了解"本地内存访问快,远程内存访问慢"远远不够,强调NUMA揭示了服务器资源之间的路径成本关系。通过分析numactl -H命令输出的四类关键信息(node、cpus、size/free、distance),可以掌握CPU与内存的分布关系、节点间访问代价等重要指标。文章还阐述了NUMA如何影响网卡、NVMe、NPU等设备的性能表现,并提供了避免常见错误的建议。最终强调NUMA应
2026-04-02 09:21:28
232
原创 《服务器测试百日学习计划——Day16:系统日志与驱动核查,排障不能靠猜要靠证据》
本文介绍了服务器测试中如何通过日志和驱动信息进行证据型排障。核心要点包括:1)掌握三个关键命令:lsmod查看驱动模块加载状态,dmesg检查设备初始化情况,journalctl -k分析内核日志时间线;2)建立标准排障流程:先确认设备存在性,再检查驱动状态,最后分析日志证据;3)强调从"猜测问题"转向"证据证明"的工程化思维。文章通过具体场景说明如何区分硬件问题与驱动/软件问题,并提供了日志分析的实用表格模板,帮助技术人员形成系统化的排障方法论。
2026-04-01 12:32:31
365
原创 《服务器测试百日学习计划——Day15:BIOS与固件意识,为什么很多问题不是硬件坏了》
本文是服务器测试学习计划第15天的内容,重点探讨BIOS与固件意识在服务器问题排查中的重要性。文章指出许多表面上的"硬件问题"实际上可能源于BIOS设置、固件版本或驱动匹配等软件层面因素。作者提出将服务器分为硬件、固件、驱动、操作系统和工具五层进行分析的方法,强调排障时应先确定问题所在的层次,而不是简单归因于硬件故障。文章列举了BIOS配置可能影响CPU线程数、NUMA结构、PCIe行为等典型案例,并提供了版本矩阵检查清单。最后总结了三个核心观点:不是所有服务器问题都是硬件问题;BIOS
2026-04-01 12:31:36
436
原创 《服务器测试百日学习计划——Day14:BMC基础与健康状态,为什么服务器排障不能只看OS》
摘要:本文是服务器测试百日学习计划Day14的内容,重点讲解BMC基础与健康状态检查。BMC作为服务器的带外管理控制器,能提供独立于OS的硬件健康监控。文章强调服务器排障需要结合BMC和OS视角,重点介绍了ipmitool sensor(查看当前传感器状态)和ipmitool sel list(查看历史硬件事件日志)两个核心命令的使用方法及区别。通过BMC可以及时发现过温、风扇异常、电源故障等问题,避免在机器存在潜在风险时继续测试。文章还提供了标准检查流程和常见错误提示,帮助读者建立完整的服务器健康检查思路
2026-03-30 23:00:20
414
原创 《服务器测试百日学习计划——Day13:中断与网卡性能,搞懂IRQ、CPU热点和NUMA的关系》
本文是服务器测试百日学习计划Day13的内容,重点探讨中断(IRQ)对网卡性能的影响。文章指出网络性能问题可分为链路层问题和处理路径问题两类,后者常被忽视却至关重要。通过分析/proc/interrupts文件,可以查看网卡中断分布情况,结合NUMA架构信息,判断中断处理路径是否合理。典型问题包括中断集中在少数CPU、跨NUMA处理等,这些会导致吞吐下降、延迟增加。文章提供了标准分析流程和思考框架,强调建立"中断视角"的重要性,为后续网络性能调优奠定基础。
2026-03-30 22:59:08
340
原创 《服务器测试百日学习计划——Day12:网络吞吐基线,iperf3 + sar + ip -s link 三层数据怎么对应》
本文介绍了服务器网络性能测试中建立吞吐基线的方法,强调需要将业务层(iperf3)、系统层(sar)和接口层(ip -s link)三个维度的数据对应分析。文章详细讲解了三个工具的使用方法、数据解读和单位换算技巧,并通过正常1G链路测试案例展示了三层数据的对照分析过程。同时指出1G链路有效TCP吞吐在930-950Mbits/sec是正常现象,并提供了异常数据排查的思路。这种多维度验证方法能确保测试结果的准确性和可靠性。
2026-03-27 00:05:00
766
原创 《服务器测试百日学习计划——Day10:用Python写存储自动检测脚本,一键输出12块盘的完整报告》
本文介绍了服务器存储自动检测脚本storage_check.py的开发过程。该脚本通过Python的subprocess模块调用lsblk和nvme list命令,自动化执行存储设备检测任务,解决了手工操作存在的重复劳动、容易漏项和结果不规范等问题。脚本包含四个功能模块:获取基础信息、解析lsblk输出、解析NVMe设备详情以及生成异常提示,最终输出结构化的检测报告。代码实现展示了命令执行、JSON解析和结果分析等关键技术点,可作为测试工程师从命令使用向工具开发进阶的典型案例。
2026-03-26 14:06:47
650
原创 《服务器测试百日学习计划——Day11:网卡与链路基础,一张4口RoCE网卡的完整识别方法》
本文是服务器测试百日学习计划第11天的内容,重点讲解网卡与链路基础知识。主要内容包括:1)区分物理网卡、系统接口和逻辑设备三个层次;2)纠正"接口UP不等于链路通"的常见误区;3)通过ethtool查看链路状态、驱动和PCI归属;4)判断多口网卡归属的方法;5)批量采集网卡信息的脚本;6)查看网卡错误计数;7)分析RDMA/RoCE与以太网口的对应关系。文章还提供了完整的NIC信息表示例,帮助系统掌握服务器网络接口的基础检测方法。
2026-03-25 20:28:19
401
原创 《服务器测试百日学习计划——Day9:NVMe 4K随机读写基线 + iodepth/numjobs参数扫描》
本文是服务器测试百日学习计划的第9天,重点测试NVMe固态硬盘的4K随机读写性能。测试采用fio工具,建立了4K随机读、写及混合读写(70%读/30%写)的基线性能。结果显示:随机读取IOPS达326k,带宽1272 MiB/s;随机写入IOPS达319k,带宽1247 MiB/s;混合读写时读取IOPS为223k,写入95.7k。测试还分析了延迟指标,包括平均延迟和尾延迟,并配合iostat监控设备层性能。这些数据为后续参数优化提供了基准参考。
2026-03-23 17:53:52
809
原创 《服务器测试百日学习计划——Day8:NVMe顺序读写基线测试,fio实测4.6GiB/s写、6.8GiB/s读》
本文记录了服务器测试百日学习计划第8天的内容,主要对NVMe盘(nvme0n1)进行顺序读写性能测试。测试前确认了目标盘状态并清理分区表,使用fio工具配合iostat监控,分别测试了1M和128K块大小下的顺序读写性能。结果显示:1M顺序写带宽4852MB/s,1M顺序读7149MB/s;128K顺序写4855MB/s,128K顺序读7141MB/s。所有测试均达到100%磁盘利用率,验证了该NVMe盘的性能表现。测试过程严格避开了系统盘(nvme1n1),确保了操作安全性。
2026-03-23 17:53:09
494
原创 《服务器测试百日学习计划——Day7:RAID控制器与逻辑盘,搞懂物理盘到OS设备的完整映射链》
本文介绍了服务器存储的四层架构:物理介质层、控制器层、逻辑卷层和操作系统设备层。重点解析了物理盘(PD)、逻辑盘(VD/LD)和JBOD/直通的区别,以及它们之间的映射关系。文章通过实例展示了如何从物理槽位追踪到Linux块设备,并对比了不同RAID模式的特点。最后以6U鲲鹏服务器为例,演示了通过storcli64工具分析实际存储配置的过程,揭示了8块SATA SSD通过RAID0单独映射给操作系统的特殊配置。
2026-03-20 00:14:26
372
原创 《服务器硬件基础(九)——BIOS/UEFI详解:鲲鹏920关键配置项与测试注意事项》
本文介绍了服务器BIOS/UEFI的基础知识及鲲鹏920服务器的关键配置。主要内容包括:BIOS/UEFI的定义与区别、进入BIOS的方法、鲲鹏920服务器的重要配置项(NUMA、内存频率、PCIe、CPU功耗等)、BIOS版本查看、常见问题排查以及升级方法。文章强调BIOS在硬件测试中的重要性,并总结了服务器硬件基础系列的全部内容。
2026-03-18 17:46:25
442
原创 《服务器测试百日学习计划——Day6:NVMe架构深挖,搞懂controller、namespace和NVMe为什么快》
本文摘要:本文是服务器测试学习计划第6天内容,重点解析NVMe架构。首先区分NVMe协议、PCIe总线、U.2/M.2形态和SSD介质的概念差异。通过实机演示nvme list和lspci命令,说明控制器(controller)和命名空间(namespace)的关系。详细分析NVMe性能优势的四大原因:PCIe高带宽、多队列并发、低延迟和Gen4 x4链路。最后介绍使用nvme-cli工具查看控制器信息和健康状态的方法,并提供Python自动化检测脚本。文章为理解NVMe架构提供了系统性的实践指导。
2026-03-18 17:44:52
760
原创 《服务器测试百日学习计划——Day5:存储系统全景,搞清楚NVMe/SATA/SAS/RAID的关系》
本文是服务器测试百日学习计划Day5,重点解析存储系统核心概念与设备识别方法。文章首先区分了NVMe(高性能PCIe协议)、SATA/SAS(接口体系)和RAID(控制层)等关键概念。通过实机演示,使用lsblk、nvme list、lsscsi和lspci等命令识别了U.2 NVMe SSD、M.2 SATA SSD和RAID逻辑盘等设备,并绘制了存储路径图。特别指出M.2形态可能采用SATA或NVMe协议,避免常见混淆。全文提供了清晰的设备识别流程和概念框架,适合服务器管理员学习存储系统基础知识。
2026-03-16 17:40:58
546
原创 《服务器硬件基础(八)——BMC/IPMI详解:华为自研BMC使用指南与测试实战》
文章摘要: 本文介绍服务器BMC/IPMI管理功能,重点讲解华为鲲鹏920服务器的BMC实现。BMC作为独立管理芯片,提供远程控制、硬件监控、日志记录等核心功能。文章详细演示了ipmitool命令行工具的使用方法,包括电源控制、传感器监控、SEL日志查询等操作,并对比了Web界面的适用场景。最后分享了测试实践中BMC的应用技巧和常见问题排查方法,为服务器运维和测试提供实用参考。
2026-03-16 15:09:32
662
原创 《服务器硬件基础(七)——散热详解:风扇架构、温度监控与压测验证》
本文介绍了服务器散热系统的关键知识,包括风冷架构原理、温度监控方法和压测技巧。重点讲解了鲲鹏920服务器6U机箱的双风扇组设计,提供了查看风扇转速和各部件温度的ipmitool命令,列出了CPU、内存、NPU等关键部件的温度阈值。文章详细阐述了散热测试方法,包括基线采集、全负载压测和稳定性验证,并给出风扇故障排查步骤和压测数据记录要点。最后强调散热测试要确保全负载温度不超阈值且温度曲线稳定收敛。
2026-03-13 23:22:28
399
原创 《服务器测试百日学习计划——Day4:PCIe 架构与服务器设备拓扑》
本文介绍了服务器测试百日学习计划第四天的PCIe架构知识,包含12个学习模块。主要内容包括:PCIe基础概念、lane、Gen版本、带宽计算、设备识别、链路状态、拓扑结构等核心知识点。通过lspci命令可查看NVMe、网卡、RAID卡等PCIe设备,文章还展示了典型PCIe结构(CPU→Root Port→Switch→设备)和实际设备输出示例。学习时长约3-5小时,适合服务器硬件测试工程师系统掌握PCIe相关知识。
2026-03-13 09:31:58
875
原创 《服务器测试百日学习计划——Day3:服务器性能分析,学会判断服务器瓶颈》
摘要: 本文是服务器硬件测试工程师JACK的百日学习计划Day3内容,聚焦服务器性能分析。首先梳理了服务器工程师必备知识体系,包括Linux系统、CPU架构、PCIe架构等核心模块。通过10天基础循环计划,逐步掌握硬件识别、NUMA架构、存储网络等关键技术。Day3重点讲解了10个性能分析模块,包括uptime查看系统负载、top分析CPU使用率、内存/IO监控等实用技巧。文中以stress-ng压测为例,演示了如何通过uptime和top观察CPU负载变化,并详细解读了top命令中各CPU指标的实用意义,
2026-03-12 06:00:00
676
原创 《服务器测试百日学习计划——Day2:服务器架构核心(NUMA + PCIe + 网络)》
本文介绍了服务器硬件测试中的核心知识,重点解析NUMA架构原理及其性能影响。主要内容包括:1)NUMA架构特点:不同CPU访问本地内存与远程内存的速度差异;2)通过lscpu和numactl工具查看NUMA节点信息;3)CPU与内存拓扑关系分析;4)PCIe链路速度检测方法。文章还展示了鲲鹏920处理器的安全优势(对x86常见漏洞免疫)以及NVMe设备的PCIe详细信息查询方法,为服务器性能优化提供实用参考。
2026-03-11 00:19:35
807
原创 《服务器测试百日学习计划——Day1:Linux基础与硬件查看》
摘要: 《服务器测试百日学习计划》Day1重点介绍Linux基础命令与服务器硬件查看方法。通过pwd、ls、cd等命令掌握终端操作,使用lscpu、free -h、lsblk等工具分析CPU(如双路鲲鹏920)、内存(2TB)、磁盘(NVMe/SAS)配置。详细解读硬件拓扑与故障排查(如NVMe消失的四层排查法),为服务器测试奠定基础。
2026-03-10 00:11:20
1290
原创 《服务器硬件基础(六)——电源详解》
本文介绍了服务器电源的基础知识和测试方法。服务器电源相比普通PC电源更强调稳定性、冗余性和高效率,通常配备两块以上电源支持热插拔和远程监控。文章详细讲解了通过ipmitool工具查看电源状态、功耗等关键参数的方法,并提供了电源冗余切换测试、功耗测试和上下电测试的具体操作步骤。此外,还介绍了80PLUS能效认证标准,列举了电源常见问题的排查方法,强调了测试时需要记录的各项指标。最后指出电源测试的核心关注点是冗余切换、功耗控制和上下电功能,ipmitool配合SEL日志是电源测试的重要工具组合。
2026-03-09 17:57:21
286
原创 《服务器Linux命令详解(六)——昇腾鲲鹏专项命令实战》
本文介绍了Linux环境下昇腾NPU和鲲鹏CPU的专项命令使用指南。主要内容包括:1)环境确认方法,通过lspci、lscpu等命令检查硬件识别情况;2)昇腾NPU管理工具npu-smi的使用,包括查看基本信息、详细信息和实时监控;3)性能测试工具ascend-dmi的使用方法和算力参考标准;4)温度和功耗监控技巧;5)鲲鹏CPU专项命令,如查看CPU信息、频率设置和NUMA拓扑;6)常见问题排查方法;7)完整的测试流程建议。文章为使用华为昇腾和鲲鹏处理器的技术人员提供了实用的命令参考和测试指导。
2026-03-09 17:57:00
332
原创 《服务器硬件测试到底在测什么?一文彻底搞清楚》
【摘要】本文系统阐述了服务器硬件测试的完整方法论,指出其核心是验证服务器在功能、性能、稳定性等方面是否具备可交付和规模化运维能力。测试需覆盖三层目标:功能正确性、性能效率、长期可靠性,并强调环境控制、瓶颈定位、日志分析和尾部延迟等关键点。作者提出标准化的五步测试流程(需求识别→配置冻结→分层测试→联合判定→复盘整改),强调建立基线-变更-回归的闭环机制。文章还整理了各类测试工具图谱,指出测试理念比单一工具更重要,应关注真实约束条件下的系统表现而非单纯性能分数。
2026-03-07 11:07:28
413
原创 《服务器Linux命令详解(五)——网络测试命令实战》
本文介绍了Linux网络测试的常用命令及使用场景。重点讲解了ping命令测试网络连通性、ethtool查看网卡状态和速率、iperf3测试网络带宽等工具。详细说明了各命令的关键指标解读,如ping的延迟和丢包率、ethtool的链路速率和错误包统计、iperf3的实际带宽和重传次数等。针对网络带宽不达标问题,提供了六步排查思路:检查链路速率、错误包、CPU瓶颈、中断绑核、驱动日志和Bond配置。最后建议组合使用多个命令进行网络测试和监控,并总结了网络测试的核心三步流程。
2026-03-06 17:27:47
458
1
原创 《服务器硬件基础(五)——网卡详解》
本文介绍了服务器网卡的基础知识及测试方法。主要内容包括:1)服务器网卡相比普通PC网卡具有更高带宽、多端口支持、Bond聚合、RDMA等特性;2)通过lspci、ethtool等命令验证网卡状态和链路质量;3)讲解Bond1主备模式和Bond4链路聚合模式的区别与应用场景;4)使用iperf3工具进行单口、多线程、Bond聚合等网络性能测试;5)常见问题排查方法及测试数据记录要点。文章强调网卡测试需重点关注链路状态、速率达标和Bond配置正确性。
2026-03-06 17:22:50
560
原创 《服务器硬件基础(四)——存储详解》
本文介绍了服务器存储基础知识,重点讲解存储类型、接口差异及性能测试方法。内容包括:HDD、SSD和NVMe等存储介质特点;SATA、SAS、M.2、U.2等接口的速度和适用场景;使用fio工具测试顺序/随机读写性能的实操命令;常见问题排查技巧(识别异常、性能不达标等)。文章强调企业级服务器优选U.2接口NVMe硬盘,并提供了完整的存储测试指标体系和温度监控方法,为服务器存储选型和性能验证提供了实用指南。
2026-03-05 09:55:56
346
原创 《服务器Linux命令详解(四)——日志排查命令实战》
journalctl是systemd的日志查看工具,记录了系统服务、启动过程、应用程序等日志,比/var/log/messages更全面。SEL(System Event Log)是BMC记录的系统事件日志,记录了硬件层面的所有重要事件,包括电源操作、温度告警、硬件故障等。:每次跑测试之前,先清空dmesg和SEL日志,确保测试结束后日志里全是本次测试产生的内容,排查问题不会被旧日志干扰。dmesg记录了系统内核运行时的所有事件,包括硬件识别、驱动加载、设备报错等,是硬件测试中最常用的日志工具。
2026-03-05 09:55:48
647
原创 《服务器硬件基础(三)——内存详解》
本文介绍了服务器内存的基础知识、测试方法和常见问题排查。作者首先阐述了服务器内存的特点(容量大、支持ECC、多通道等),并详细讲解了通过dmidecode和free命令查看内存规格的方法。重点介绍了内存测试的两类方法:功能验证(使用STREAM测试读写带宽)和压力测试(使用memtest和stress工具)。文章还提供了内存温度监控方法,以及常见问题的排查思路(温度过高、硬件错误、容量不足等)。最后强调内存测试需关注读写速率、稳定性和ECC报错,为后续存储测试内容做铺垫。
2026-03-04 09:48:55
518
原创 《服务器Linux命令详解(三)——性能监控命令实战》
本文介绍了Linux系统中四个常用的性能监控命令:1. top命令用于实时监控CPU和内存使用情况,可查看系统负载、进程资源占用等关键指标;2. htop是top的增强版,提供更直观的界面和核心级监控;3. iostat专注于磁盘IO性能分析,可检测存储瓶颈;4. vmstat提供系统整体状态视图,帮助快速定位CPU、内存或IO瓶颈。文章详细说明了各命令的关键指标、常用操作和常见异常情况,并建议在实际压测时组合使用这些命令,以便全面监控系统性能。
2026-03-04 09:48:07
557
1
原创 《服务器Linux命令详解(二)——硬件检测命令实战》
本文介绍了Linux系统中三个关键硬件检测命令:lscpu用于查看CPU架构、核心数和频率等基本信息;lspci用于检查PCI设备如网卡、加速卡的识别情况;dmidecode可获取内存、BIOS等详细硬件数据。文章通过NPU卡识别不全的实际案例,详细演示了排查步骤:从命令检查、日志分析到BIOS确认和固件更新。最后提供了组合使用这些命令生成完整硬件档案的技巧,为服务器硬件验收和维护提供了实用指导。
2026-03-03 16:05:22
798
原创 《服务器运维必备——Linux常用命令汇总》
ascend-dmi -f -d 0 -t int8 --et 60 # 跑INT8算力测试。ascend-dmi -f -d 0 -t fp16 --et 60 # 跑FP16算力测试。tail -f /var/log/messages # 实时查看系统日志。tar -zcvf xxx.tar.gz /path # 打包压缩文件。lspci | grep -i ascend # 过滤查看昇腾加速卡。tar -zxvf xxx.tar.gz # 解压tar.gz文件。
2026-03-03 16:00:45
613
原创 《服务器硬件基础(二)——CPU详解:以鲲鹏920为例》
摘要:本文聚焦服务器CPU测试,以华为鲲鹏920为例,介绍CPU基础概念与测试方法。CPU作为服务器核心,相比PC版具备更多核心、ECC内存支持等特性。测试分为压力测试(Prime95、stress-ng等工具)和性能测试(STREAM内存带宽测试),需监控温度(ipmitool)并关注频率、负载等指标。常见问题包括频率上不去、温度过高降频等,需检查BIOS设置、散热等。测试需记录最高温度、频率、跑分等数据,确保CPU稳定达标。下篇将探讨内存测试。
2026-03-02 16:06:45
413
原创 《服务器硬件基础(一)——从零认识一台服务器》
摘要: 本文由服务器硬件测试工程师JACK分享服务器核心模块的基础知识,涵盖计算类(CPU/GPU/NPU/FPGA)、存储类(内存/HDD/SSD)、网络类(网卡/IB卡)、主板芯片类(BMC/BIOS)及供电散热系统。重点解析各模块功能与协作流程(如请求处理中CPU调度、NPU加速等),并预告后续将深入讲解鲲鹏920 CPU、ECC内存、昇腾NPU等专题。适合测试工程师及服务器技术爱好者参考,帮助系统化掌握服务器硬件架构。(149字)
2026-03-02 16:05:11
497
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅