- 博客(122)
- 资源 (9)
- 收藏
- 关注
原创 Ubuntu 24.04安装nvidia H200 驱动,并进行nccl-test测试,生产实战部署脚本(nvidia driver570.124.06,cuda12.8,脚本复制即可使用)
【代码】Ubuntu 24.04安装nvidia H200 驱动,并进行nccl-test测试,生产实战部署脚本。
2025-03-14 17:39:34
178
原创 ubuntu22.04安装GPU nvidia、nccl-tests、cuda、ofed驱动全家桶(nvidia-driver-550 | 550.144.实际生产环境,复制即可使用20250315)
【代码】ubuntu22.04安装GPU nvidia、nccl-tests、cuda、ofed驱动全家桶(实际生产环境,复制即可使用20250315)
2025-03-13 11:44:59
268
原创 ubuntu-drivers-common 包功能详解
(如 NVIDIA/AMD 显卡驱动、无线网卡驱动等)。该包是 Ubuntu 系统中用于。的核心工具,尤其针对。
2025-03-12 18:37:24
149
原创 NVIDIA-GPU驱动降级-(实际生产故障一例)
按照以上步骤操作,你应该可以解决无法安装指定版本 NVIDIA 驱动的问题。先更新本地的软件包索引,这样系统就能获取到最新的软件包信息。版本,你可以从列出的可用版本中选择一个进行安装。下载对应的驱动,然后按照官方文档的指引进行安装。与 NVIDIA 驱动版本不匹配。若软件源里没有合适的版本,你可以从。,而 NVIDIA 驱动版本是。此命令会列出所有可用的版本。在更新软件源之后,查看。替换成你要安装的版本。你遇到的错误信息表明。
2025-03-12 16:56:37
122
原创 二、OpenSM排障----实战生产
当 OpenSM 服务端故障时,客户端可能无法正常访问 InfiniBand 网络。以下是排障步骤,帮助确认是否是服务器故障,以及如何查看客户端日志。使用 测试客户端与服务器之间的连通性:ibping <服务器节点的GUID或LID> 如果无法 ping 通,可能是服务器故障或网络问题。使用 查看客户端 InfiniBand 接口状态:ibstat 确保接口状态为 Active,如果状态为 Down,可能是服务器端未正确配置或故障。使用 查看当前子网管理
2025-02-14 10:45:30
182
原创 一、OpenSM 架构部署及原理详解
OpenSM 是 InfiniBand 网络的核心组件,通过自动化的拓扑发现、路由计算和状态维护,确保网络的高效运行。部署时需关注配置文件参数、路由算法选择和高可用性设计,调试时可借助日志和诊断工具快速定位问题。
2025-02-14 10:35:53
280
原创 nccl-test报错,实际解决过程-实战生产
共享库文件未找到,这通常意味着 OpenMPI 或其他 MPI 实现的库路径没有正确包含在系统的库路径中。:确保使用的 MPI 版本与 NCCL 测试程序兼容。有时不同版本之间可能存在不兼容的情况。为了永久设置该环境变量,可以将其添加到你的 shell 配置文件(例如。:确保在编译时指定了正确的 MPI 路径。如果找不到,请确保你安装的是正确的版本。:确保所有依赖项都已正确安装。将 OpenMPI 的库路径添加到。如果有任何库未找到,请安装相应的包。通过以上步骤,你应该能够解决。通常,该文件应该位于。
2025-02-13 18:57:53
83
原创 modprobe nvidia 报错,-实战生产
没有找到 NVIDIA 驱动模块。这通常是因为驱动程序未为该内核版本正确编译或安装。如果仍然遇到问题,请提供更多的错误信息或日志内容以便进一步诊断。如果仍然无法加载 NVIDIA 模块,可以检查系统日志以获取更多信息。有时,更新 initramfs 文件可以帮助解决问题。如果没有看到当前内核版本对应的条目,可能需要重新构建模块。如果上述方法无效,可以尝试使用 NVIDIA 官方提供的。这些日志可能会提供有关为什么驱动程序无法加载的更多信息。并下载适合你 GPU 型号的驱动程序。如果成功加载,你可以运行。
2025-02-13 18:42:30
403
原创 nvidia-smi执行失败,报错-实战生产
出现错误通常意味着系统无法与 NVIDIA 驱动程序进行通信。这可能是由于驱动程序未正确安装、内核模块未加载或存在其他配置问题。
2025-02-13 18:38:56
227
原创 MLNX_OFED_LINUX安装失败-实战生产
日志信息来看,脚本在尝试为你的内核版本(6.8.0-1008-nvidia)构建相应的 DEB 包时遇到了一些警告和错误。这些警告主要集中在某些功能不支持当前的内核版本上。
2025-02-13 18:20:29
533
原创 nginx面试题及答案(全网最全)
Nginx是一个开源的高性能HTTP和反向代理服务器,也提供IMAP/POP3代理服务。正向代理为客户端提供服务,隐藏客户端的真实IP;反向代理为服务器端提供服务,隐藏后端服务器的真实地址。
2025-02-10 18:22:16
56
原创 lvs面试题及答案(全网最全)
LVS(Linux Virtual Server)是一种高性能的负载均衡解决方案,主要用于在 Linux 系统上实现服务器集群。其主要作用是通过将客户端请求分发到多个后端服务器来提高系统的可用性和性能。真实服务器(RS)是指实际处理客户端请求的服务器。每个 RS 都有自己的 IP 地址,并且可能运行不同的应用程序或服务。请求转发是指 Director 将接收到的客户端请求根据调度算法选择合适的 Real Server,并将请求转发给该服务器的过程。
2025-02-10 17:49:20
385
原创 ubuntu-gpu生产环境,创建lvm步骤(真实生产)
通过以上步骤,你已经成功地将多个 NVMe 磁盘创建成了一个 LVM 逻辑卷,并将其挂载到了/mnt,同时确保了系统重启后能够自动挂载该逻辑卷。下面是将上述步骤转换为一个Shell脚本的示例。这个脚本会自动执行LVM创建、格式化、挂载以及修改/etc/fstab文件的操作,并验证配置是否正确。通过以上步骤,你已经成功地删除了vg0卷组及其相关的物理卷,并按照你的需求重新配置了一个新的 LVM 逻辑卷,并将其挂载到了/mnt,同时确保了系统重启后能够自动挂载该逻辑卷。
2025-02-10 16:25:21
461
原创 2. Mellanox 网卡的参数调优-LINK_TYPE_P1(GPU-AI-大模型,底层调优-测试)
命令作用设置 Mellanox 网卡设备的参数为1,表示 InfiniBand 链路类型。验证方法使用查询当前配置。使用和ip link检查网络接口状态。使用ethtool检查链路状态(如果有需要)。通过这些步骤,你可以确保参数已正确设置,并且网卡工作在预期的链路类型下。
2025-02-08 18:42:14
139
原创 1. Mellanox 网卡的参数调优-ATS_ENABLED(GPU-AI-大模型,底层调优-测试)
最直接且可靠的方法是使用mlxconfig来查询设备的配置状态。使用mlxconfig查询配置检查输出:确认是否设置为true。
2025-02-08 18:21:42
203
原创 ubuntu22.04中软件版本存在2个,如何删除旧版本
如果需要更新或者重新安装最新的NVIDIA驱动或组件,建议通过官方渠道获取最新版本,以保证兼容性和稳定性。此外,在进行此类更改时,请确保了解这些更改可能对依赖于特定版本的现有应用程序或设置的影响。该命令会移除指定的软件包以及任何与之相关的配置文件。在执行此操作之前,请确保这样做不会对你系统的其他部分造成不利影响。命令的输出表明存在两个版本的NVIDIA Fabric Manager:一个是550.127.08-1,状态为。,意味着它已经被卸载,但是它的配置文件仍然保留在系统中。
2025-01-21 11:29:07
158
原创 [gpu驱动] H200 nvidia-fabricmanager-550升级到nvidia-fabricmanager-565报错,升级步骤
【代码】H200 nvidia-fabricmanager-550升级到nvidia-fabricmanager-565报错,升级步骤。
2025-01-20 16:51:05
266
原创 cka考试-02-节点维护
对于由控制器管理的 Pod(例如 ReplicaSet、Deployment、StatefulSet 或者 DaemonSet),当它们检测到一个节点再次变为可调度时,会尝试在该节点上创建新的 Pod 实例。的节点标记为不可调度(unschedulable),并驱逐该节点上的所有 Pod,以便你可以对该节点进行维护或其他操作。这个命令会列出集群中所有节点的信息,并且在输出的最后一列(通常是最右边的一列),你会看到每个节点的条件。确保集群中有足够的资源(CPU、内存等)可用,以便快速创建新的 Pod。
2025-01-03 16:46:57
166
原创 ubuntu22.04 fstab详细分析
这个/etc/fstab文件展示了标准的Ubuntu服务器安装配置,其中包含了一个LVM管理的根文件系统、一个独立的/boot分区、一个EFI系统分区以及一个交换文件。这种配置提供了良好的灵活性和性能,并且通过使用UUID来标识设备,可以确保即使磁盘顺序发生变化,系统仍然能够正确挂载各个分区。
2024-12-31 15:38:39
351
原创 六、实战pxe安装ubuntu 22.04 软raid1(实际生产pxe配置-使用match匹配磁盘)
请注意,在实际环境中,应当根据具体的硬件和需求调整配置参数。中的一些命令可能需要根据实际情况进行适当调整或测试。
2024-12-31 14:52:40
201
原创 实战ubuntu22.04 软raid查看命令
从上述信息来看,你的RAID1阵列md0正在健康地运行,并正在进行同步操作以确保数据的一致性。由于RAID1是一个镜像模式,即使其中一个磁盘失效,另一个磁盘仍然可以保证数据的可用性。同步完成后,RAID将恢复正常操作状态。如果你不需要进行任何额外的操作,只需等待同步完成即可。如果你担心同步速度或者想要检查是否有任何潜在问题,你可以使用来获取更多细节信息。从上述信息来看,你的RAID1阵列md0正在健康地运行,并且正在进行同步操作以确保数据的一致性。同步进度已经达到了96%,预计很快就会完成。
2024-12-27 17:05:42
468
原创 五、实战pxe安装ubuntu 22.04 软raid1(实际生产pxe配置)
这段配置文件是一个cloud-init的自动安装配置,用于自动化部署Ubuntu服务器操作系统。它定义了从系统身份、键盘布局、区域设置到磁盘分区和RAID配置的一系列设置,并且包含了在安装过程的最后阶段执行的一些命令。基础设置version: 1指定了autoinstall配置文件的版本。source定义了安装源,这里是ubuntu-server。identity设置了主机名(hostname)、用户(username)和密码(password注意这里的密码是经过加密的。键盘与语言设置。
2024-12-27 16:50:51
288
原创 三、PXE安装-dhcp服务异常实战排错
确保 DHCP 服务器有权限访问所需的文件和目录,并且所有路径都正确无误。如果有任何错误,它们将会被打印到标准输出中。根据提示修复配置文件中的问题。文件,确保为每个需要提供 DHCP 服务的网络接口添加了相应的。声明,并指定了正确的 IP 地址范围、默认网关等信息。接口的请求,因为没有为该接口定义子网。确保您的 DHCP 配置文件没有语法错误。知道它应该监听哪个网络接口。变量包含正确的网络接口名称,例如。完成上述检查和修正后,尝试重新启动。(如果存在)中的相关条目。
2024-12-19 10:46:57
72
原创 四、PXE-配置 Ubuntu 22.04 的 PXE 无人值守安装
配置 Ubuntu 22.04 的 PXE 无人值守安装需要设置 DHCP、TFTP 和 HTTP(或 NFS)服务器,并准备适当的引导文件和自动应答文件。以下是基于实际生产环境的配置案例,适用于使用 CentOS 或 Ubuntu 作为部署服务器。
2024-12-19 10:46:43
389
原创 HP服务器开启性能模式
模式指的是通过特定配置(通常是 BIOS 或操作系统中的设置)来控制处理器的能源性能偏置(Energy Performance Bias, EPB)。EPB 是一种机制,允许用户或系统管理员在性能和功耗之间进行权衡。不同的设置可以影响系统的响应速度、能效等。当提到 模式时,通常是指使用一个配置项(如 BIOS 设置或操作系统中的配置文件)来设定 EPB 的行为。这种模式下,EPB 的值不是固定不变的,而是可以根据具体的工作负载需求动态调整,以达到最佳的性能与功耗平衡。操作系统模式:BIOS 模式:PECI
2024-12-17 18:37:50
505
原创 二、pxe-Kickstart 文件 (kickstart.ks) 详细分析及中文注释
文件的逐行分析,并附上详细的中文注释。这个文件用于自动化安装 CentOS 或 RHEL 系统,通过指定一系列命令来配置和安装操作系统。两者虽然独立,但在实现自动化部署和维护的过程中是相辅相成的。文件则具体定义了安装过程中的各项配置,两者共同作用于实现完全自动化的安装流程。中可能涉及的网络启动选项保持一致,确保系统能够顺利地通过网络获取必要的资源。部分实现了无人值守安装的具体步骤,确保了安装过程的自动化。文件负责自动化安装过程中的各项配置,而。,确保新安装的操作系统能够正确引导。指令配置了网络接口,这与。
2024-12-12 16:08:12
73
原创 一、pxe-grub.cfg 文件详细分析及中文注释
以下是对 文件的逐行分析,并附上详细的中文注释。这个文件用于配置 GRUB(Grand Unified Boot Loader),它是在启动过程中加载操作系统的引导加载程序。中文注释汇总 设置默认启动项: 这行代码设置了 GRUB 的默认启动项为菜单中的第一个选项(索引从0开始)。也就是说,如果没有用户干预,GRUB 将会自动选择并启动第一个菜单项。 设置等待时间: 这行代码指定了 GRUB 在启动时等待用户选择的时间为5秒。如果在这段时间内没有用户选
2024-12-12 15:50:48
189
原创 二、pxe安装失败,交换机tcpdump dhcp数据包
在交换机上使用tcpdump抓取 DHCP 数据包可以帮助你监控和分析 DHCP 流量,这对于故障排除网络配置问题或了解 DHCP 服务器与客户端之间的交互非常有用。不过需要注意的是,并不是所有的交换机都支持直接运行tcpdump,这通常是在 Linux 或类 Unix 系统上使用的命令行工具。对于不支持直接运行tcpdump的交换机,你可以考虑将流量镜像到一台可以运行tcpdump的机器上进行抓包。
2024-12-12 10:35:51
229
原创 一、PXE(Preboot Execution Environment)安装系统的流程及原理
PXE 是一种通过网络启动计算机的技术,允许机器在没有本地操作系统的情况下从网络服务器获取并执行启动程序。它广泛应用于大规模数据中心和企业环境中,用于简化和加速操作系统的部署过程。以下是 PXE 安装系统的详细流程及原理。通过上述流程,你可以实现高效、便捷的操作系统批量部署,尤其适用于需要频繁更新或维护大量服务器的企业环境。
2024-12-12 10:32:25
469
原创 AI大模型如何赋能电商行业,引领变革
随着人工智能(AI)技术的迅猛发展,特别是大规模预训练模型(即大模型)的兴起,电商行业正经历着前所未有的变革。AI大模型凭借其强大的数据处理能力和深度学习算法,不仅能够显著提升电商平台的运营效率和服务质量,还能催生新的商业模式和用户体验。从个性化推荐系统的完善到供应链管理的优化,再到内容生成与营销创新,以及客户服务的升级,每一个环节都因为AI技术的介入而变得更加高效、智能和人性化。展望未来,随着算法的进步和应用场景的拓展,AI大模型将继续引领电商行业的变革之路,创造出更多令人期待的可能性。
2024-12-11 14:07:43
999
原创 如何编写一份优秀的技术文档
每份技术文档都应该有一个清晰的目标。是为了解释某个复杂算法的工作原理?还是指导用户如何安装和配置软件?确定文档的主要目的是第一步。这有助于你集中精力,避免偏离主题。示例:如果文档是为了帮助新入职的工程师快速上手项目,则重点应该放在基础概念、环境搭建以及常见问题解决等方面。
2024-12-11 14:03:10
656
原创 二、ubuntu单盘改软raid1
将单盘系统转换为软 RAID 1 是一个复杂的过程,尤其是在已经有数据的生产环境中进行时。这个过程涉及备份现有数据、创建 RAID 阵列、迁移数据以及更新引导加载程序(如 GRUB)。
2024-12-11 13:22:13
667
原创 一、使用 mdadm 工具在 Ubuntu 上创建 RAID 1(镜像)
在 Ubuntu 上创建 RAID 1(镜像)可以使用mdadm工具。以下是详细的步骤,包括安装必要的工具、创建 RAID 阵列、格式化并挂载 RAID 设备。
2024-12-11 13:14:56
817
原创 ubuntu22.04软件安装问题实战解决
尝试安装特定版本的时遇到了依赖问题。错误信息表明,你所指定的版本的一些依赖包已经被更高版本(例如)所替代或准备安装。
2024-12-10 17:50:06
670
读闪付卡号软件uid cuid
2023-08-14
FlashThief U盘小偷
2010-01-04
WIN32API手册
2008-12-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人