随便做点啥-CSDN博客

原创 4卡RTX 5060Ti服务器 llama.cpp 测试

4张RTX5060Ti显卡服务器成功部署llama.cpp推理环境，在Ubuntu22.04系统下稳定运行32B参数量的Qwen3量化模型。测试显示：单卡推理速度达22.3t/s(Prompt)和7.3t/s(Generation)，4卡并行时性能提升至253t/s(Prompt)和30t/s(Generation)。该配置显存占用合理（12-14GB/16GB），适合中小企业私有化部署，总成本约1.6万元，性价比突出。推荐使用Q4_K_M量化等级，开启flash-attention优化，上下文窗口设置为1

2026-04-03 22:02:48 810

原创 4 卡 Intel B60(48G) 服务器llama.cpp测试

本文详细介绍了在配备4张Intel B60显卡（48G显存）的服务器上安装和优化llama.cpp的完整流程。主要内容包括：1）系统与硬件准备，推荐Ubuntu 25.04 LTS系统；2）安装Intel oneAPI工具包并配置环境；3）解决多卡识别问题，安装专用驱动；4）编译llama.cpp并启用SYCL和多GPU支持；5）性能测试与调优，包括参数优化和多卡显存分配策略。最终测试显示，系统能有效识别所有GPU，在Qwen3 32B模型上实现了8.2 tokens/s的生成速度

2026-04-02 04:03:42 581

原创 8卡RTX 4090服务器llama.cpp测试

本文详细介绍了8卡RTX4090服务器的完整安装与性能调优流程。主要内容包括：1)系统准备，包括Ubuntu22.04LTS安装和硬件检查；2)NVIDIA驱动安装，包括4090专属驱动535版本；3)CUDA12.2环境配置；4)llama.cpp编译，特别针对4090的sm_89算力优化；5)多GPU测试，展示8卡协同工作性能；6)性能调优参数详解，包括批处理大小、上下文长度等关键设置；7)常见问题排查指南。最终测试显示，8卡4090服务器在Qwen3-32B模型上实现超过400token/s的推理速度

2026-04-01 03:56:12 394

原创 8卡RTX 5090服务器llama.cpp测试

本文详细介绍了8卡RTX5090服务器的完整安装与性能调优流程。基于Ubuntu22.04LTS系统，从硬件检查、NVIDIA开源驱动安装、CUDA12.4配置到llama.cpp多GPU编译优化，逐步指导完成环境搭建。重点包括：禁用Nouveau驱动、安装6.8+内核、使用590-open专属驱动、配置CUDA环境变量、编译支持多GPU的llama.cpp（含算力参数sm_120优化）。测试阶段展示了单卡验证和8卡自动负载均衡的实操方法，提供关键性能参数调优建议（如batch-size、gpu-layer

2026-04-01 01:48:36 1113

m0_57112626的博客

原创 4卡RTX 5060Ti服务器 llama.cpp 测试

原创 4 卡 Intel B60(48G) 服务器llama.cpp测试

原创 8卡RTX 4090服务器llama.cpp测试

原创 8卡RTX 5090服务器llama.cpp测试

原创 n8n自动化部署全攻略

原创 OpenClaw+DeepSeek+Seedance2.0自动视频生成方案

原创 Intel B60 GPU服务器Ubuntu22.04环境搭建指南

原创 Ubuntu 22.04安装OpenClaw必备Python配置

原创 RTX 4090 VFIO直通故障根源解析

原创容器内nvidia-smi OOM问题解决方案

原创 OpenClaw Windows安装必备Python版本与依赖

原创 RTX 4090三类负载功耗实测

8 卡 RTX 5090 服务器完整安装及性能调优指南.docx

空空如也