AI-LLM-实战
LLM-实战
木卫二号Coding
悟饭,你也变强了
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第七十九篇-E5-2680V4+V100-32G+llama-cpp编译运行+Qwen3-Next-80B
本文介绍了在CentOS-7系统上使用Tesla V100-32G显卡部署llama.cpp大语言模型服务的完整流程。环境配置包括CUDA 12.2、CMake 3.24.3等必要组件,通过CMake关键参数-DGGML_CUDA=ON启用GPU加速。编译过程优化了-j参数和GGML_CUDA_FORCE相关标志位,运行命令指定了80B参数的Qwen3模型、30层GPU加速和102000上下文窗口。最终服务以7-8 tokens/s的速度运行,GPU显存占用30GB+但利用率仅10%,CPU已满载成为性能瓶原创 2026-02-06 00:19:58 · 49 阅读 · 0 评论 -
第七十八篇-CentOS-7+安装cmake-3.24.3
本文介绍在CentOS-7系统上安装CMake 3.24.3的完整流程:首先下载预编译二进制文件,赋予执行权限后创建安装目录;通过指定prefix参数安装到自定义路径,并跳过许可协议;最后创建全局软链接使命令在任意位置可用。安装完成后通过版本验证确认安装成功。整个过程简洁高效,适合需要特定版本CMake的开发环境配置。原创 2026-02-05 21:55:08 · 65 阅读 · 0 评论 -
第七十七篇-V100+llama-cpp-python-server+Qwen3-30B+GGUF
本文介绍了在CentOS-7系统上部署Qwen3-30B大语言模型的过程。硬件配置采用Tesla V100-32G显卡,通过llama-cpp-python框架加载GGUF格式模型文件。文章详细说明了Python依赖包的安装方法,并提供了server.py配置脚本,其中设置了模型路径、GPU层数、线程数等关键参数。最后展示了三种访问方式:查看可用模型、非流式对话和流式对话,后者特别适合处理长文本任务。整个部署过程简洁明了,为开发者提供了开箱即用的AI服务解决方案。原创 2026-02-04 23:24:05 · 56 阅读 · 0 评论 -
第七十六篇-V100+llama-cpp-python+Qwen3-30B+GGUF
本文介绍了在配备Tesla V100-32G显卡的CentOS-7系统上部署Qwen3大语言模型的过程。通过conda创建Python 3.12环境,使用CUDA 12.2和CMake 3.17.5编译llama-cpp-python,成功加载30B参数的Qwen3-30B-A3B模型。配置参数包括50层GPU卸载、32768上下文窗口、26线程CPU并行等,充分利用硬件资源。测试显示模型推理时GPU利用率达83%,显存占用23GB/32GB,响应速度较快。文章提供了完整的安装命令、Python调用代码和性原创 2026-02-04 23:16:33 · 207 阅读 · 0 评论 -
第七十五篇-分享+ComfyUI+SeedVR2+TTP放大+0损耗压缩+图片放大
摘要 本文介绍了一个工作流工具的实测效果。作者提供了该工具的访问链接和邀请码(rh024),并展示了一张实测效果截图。从截图和文字描述来看,该工具运行效果良好,作者推荐读者下载试用。全文简洁明了,主要突出工具的实用性和推荐意图,适合快速了解该工具的基本情况。原创 2026-01-15 00:02:02 · 208 阅读 · 0 评论 -
第七十四篇-ComfyUI+V100-32G+SeedVR2+图片放大
本文介绍了在CentOS-7系统上使用ComfyUI运行SeedVR2视频超分辨率工作流的完整流程。系统配置包括Tesla V100-32G显卡和64GB内存。主要步骤包括:升级ComfyUI至最新版本、导入SeedVR2工作流JSON文件、安装缺失节点、下载所需模型文件(seedvr2_ema_7b-Q4_K_M.gguf和ema_vae_fp16.safetensors)。测试表明V100-32G显卡在1440分辨率下能基本跑满显存,效果明显优于原图。作者建议显存不足时可降低resolution参数值,原创 2026-01-09 22:21:02 · 387 阅读 · 0 评论 -
第七十三篇-ComfyUI+V100-32G+Flux Schnell+Lora
摘要:本文展示了在CentOS-7系统上使用ComfyUI(v0.4.0)进行AI绘画的工作流程。硬件配置包括E5-2680V4 CPU、64GB内存和Tesla V100-32G显卡,软件环境为Python 3.12和PyTorch 2.9.1。通过指定--lowvram参数启动服务,使用Lora模型"人物头像卡通2.0"生成动漫风格图像。提示词描述了粉发双马尾水手服少女的可爱形象,最终输出两张动漫风格作品图。系统运行状态显示62.68GB内存中60.25GB可用,保证了流畅的生成过程原创 2026-01-07 23:02:44 · 357 阅读 · 0 评论 -
第七十二篇-V100-32G+WebUI+Flux.1-Schnell+Lora+文生图
本文介绍了一个轻量级Flux工具,用于加载LoRA模型进行图像生成。该工具基于PyTorch和Diffusers库实现,主要功能包括: 模型管理:通过ModelManager类实现基础模型和LoRA权重的加载、生成和清理 环境优化:设置CUDA环境变量,启用xformers内存高效注意力 轻量级加载:针对V100显卡优化的超轻量模型加载模式 图像生成:支持带LoRA权重的图像生成,自动保存输出结果 工具特性: 线程安全的模型操作 自动显存管理 生成统计信息记录 支持LoRA权重动态加载/卸载 安装简单,只需原创 2026-01-07 21:50:23 · 256 阅读 · 0 评论 -
第七十一篇-V100-32G+命令行代码+运行Flux.1-Schnell+Lora+文生图
这篇文章介绍了针对NVIDIA V100 GPU优化的FLUX.1-schnell模型加载和推理脚本。主要内容包括: 环境优化设置:配置CUDA内存管理、禁用tokenizer并行、启用cuDNN基准测试 轻量级模型加载:采用FP16精度、顺序CPU卸载、VAE切片和拼接、注意力切片等技术 显存优化措施:包含xformers启用(带fallback)、LoRA权重加载优化、显存清理 生成流程:支持提示词输入、负面提示词、LoRA权重调整等参数 脚本特别针对V100显卡的显存限制进行了多项优化,包括模型加载策原创 2026-01-06 23:31:58 · 190 阅读 · 0 评论 -
第七十篇-ComfyUI+V100-32G+运行SD3.5-文生图
本文介绍了在CentOS-7系统上配置ComfyUI环境并运行SD3.5模型的工作流程。硬件配置包括E5-2680V4 CPU、64GB内存和Tesla V100显卡,软件环境采用Python 3.12和PyTorch 2.9.1。详细说明了模型文件的下载地址和存放目录(包括checkpoints、text_encoders和vae),并提供了完整的工作流JSON配置。该配置包含TripleCLIPLoader、UNETLoader、文本编码器、KSampler、VAE解码器和图像保存等节点,可实现高质量的原创 2025-12-26 22:46:56 · 862 阅读 · 0 评论 -
第六十九篇-NVIDIA V100-32G+Stable-Diffusion-WebUI
本文介绍了在CentOS-7系统上部署Stable Diffusion WebUI的完整流程。硬件配置包括E5-2680V4 CPU、64G内存和Tesla V100显卡。主要步骤包括:创建必要的目录结构、下载适配CUDA 12.2的Docker镜像、配置容器运行参数、设置环境变量以及下载基础模型文件。部署完成后可通过7860端口访问Web界面。整个过程涵盖了从环境准备到服务启动的完整环节,适用于高性能GPU服务器上的AI绘画服务部署。原创 2025-12-25 09:21:54 · 348 阅读 · 0 评论 -
第六十八篇-NVIDIA V100 功耗限制设置指南
本文介绍了两种设置NVIDIA显卡功率限制的方法:临时生效和开机自动生效。临时方法通过nvidia-smi命令直接设置250W功率限制,并推荐启用持久模式。自动生效方法则通过创建脚本和systemd服务文件,在系统启动时自动执行功率限制设置。两种方法均可通过nvidia-smi -q -d POWER命令验证设置效果。原创 2025-12-22 16:50:58 · 546 阅读 · 0 评论 -
第六十七篇-ComfyUI+V100-32G+运行Hunyuan3D_2.1
本文介绍了在CentOS-7系统上使用ComfyUI运行混元3D 2.1模型的配置和性能表现。硬件配置包括E5-2680V4 CPU、64GB内存和Tesla V100-32G显卡。系统采用Python 3.12和PyTorch 2.9.1,启动参数包含--cuda-malloc和--lowvram优化。测试显示模型加载约20GB显存,GPU利用率达100%,单次推理耗时约60秒,性能表现良好。文章详细说明了模型下载路径和目录结构,并展示了运行时的终端输出和GPU监控数据,验证了该配置下模型的可用性和效率。原创 2025-12-19 23:28:58 · 451 阅读 · 0 评论 -
第六十六流篇-ComfyUI+V100-32G+ComfyUI-Manager
本文介绍了如何在ComfyUI中安装Manager组件。首先通过git命令克隆ComfyUI-Manager仓库到指定目录,然后使用pip安装依赖项。安装完成后重启ComfyUI即可在界面看到新增的Manager组件,该组件提供了安装、更新和管理其他组件的功能。文中包含详细的操作步骤和安装完成后的界面截图展示。原创 2025-12-19 22:47:25 · 189 阅读 · 0 评论 -
第六十五篇-ComfyUI+V100-32G+运行Wan2.2-图生视频-GGUF
摘要:本文记录了在CentOS-7系统下使用Tesla V100-32G显卡运行Wan2.2图生视频模型的过程。系统配置为双路E5-2680V4处理器和64GB内存,通过ComfyUI 0.4.0框架执行。测试显示,生成1280×720分辨率、5秒视频耗时约16分钟,峰值显存占用17GB。虽然GGUF格式降低了显存需求,但生成时间未见明显优化。完整工作流程包括模型下载、参数配置及性能监控数据。原创 2025-12-19 22:42:41 · 497 阅读 · 0 评论 -
第六十四篇-ComfyUI+V100-32G+运行Z-Image-Turbo+GGUF
本文介绍了在CentOS-7系统上使用Tesla V100-32G显卡运行ComfyUI(0.4.0版本)生成图像的过程。通过将模型转换为GGUF格式(使用z_image_turbo-Q4_K_M和Qwen3-4B-Q4_K_M模型),并调整工作流节点配置,实现了1024x1024分辨率图像的生成。测试结果显示,GPU利用率达100%,显存占用6-8GB,单张图像生成时间约12秒。该方法有效降低了显存需求,使得在较小显存显卡上也能运行。系统配置包括E5-2680V4 CPU、64GB内存,使用Python原创 2025-12-18 23:31:55 · 601 阅读 · 0 评论 -
第六十三篇-ComfyUI+V100-32G+代码-Z-Image-Turbo
本文介绍了在CentOS-7系统下使用ComfyUI进行图像生成的环境配置和性能表现。系统搭载E5-2680V4处理器、64GB内存和Tesla V100-32G显卡,运行ComfyUI 0.4.0版本。通过下载Z-Image-Turbo模型和相关文件,在1024x1024分辨率下生成"晨露珠"主题图像。测试结果显示GPU利用率100%,显存占用12-13GB,平均生成时间约7秒/张,总处理时间约10-20秒。系统配置合理,性能表现良好,适合高效图像生成任务。原创 2025-12-18 22:53:16 · 496 阅读 · 0 评论 -
第六十二篇-ComfyUI+V100-32G+代码运行Z-Image-Turbo
本文介绍了在CentOS-7系统下使用Tesla V100-32G显卡运行Z-Image-Turbo模型的完整流程。系统配置包括14核28线程CPU、64GB内存和CUDA 12.2环境。通过modelscope下载模型后,使用diffusers库加载pipeline,支持bfloat16精度和多种优化选项如Flash Attention。生成1024×1024图像耗时约1分钟,GPU峰值占用30GB内存并保持100%利用率。文中提供了详细的代码实现、参数设置和运行日志,并展示了生成效果图。作者表示后续将把原创 2025-12-16 23:22:51 · 284 阅读 · 0 评论 -
第六十一篇-ComfyUI+V100-32G+GGUF+运行Flux Schnell GGUF
本文介绍了在CentOS-7系统上配置ComfyUI运行Flux Schnell模型的方法。硬件配置包括Tesla V100-32G显卡,使用GGUF格式加载flux1-schnell-Q4_K_S.gguf模型。通过安装ComfyUI-GGUF插件并修改工作流节点,实现了1024x1024图像的7秒/张生成速度,GPU内存占用仅7-8GB。相比FP16格式,GGUF加载方式显著降低了显存需求,同时保持了100%的GPU利用率,展示了高效稳定的性能表现。原创 2025-12-16 22:05:49 · 1093 阅读 · 0 评论 -
第六十篇-ComfyUI+V100-32G+运行Wan2.2-图生视频
Wan 2.2 14B图生视频模型通过ComfyUI框架实现,提供多个组件下载链接。配置参数显示在V100-32G显卡上生成1280*720分辨率、5秒视频耗时约16分钟,峰值显存占用24GB。运行日志详细记录了模型加载过程及资源使用情况,最终输出效果良好但生成时间较长。该方案支持图片上传转换视频,适用于高质量视频生成场景。原创 2025-12-16 00:05:02 · 817 阅读 · 0 评论 -
第五十九篇-ComfyUI+V100-32G+运行Flux Schnell
Flux Schnell文生图模型使用指南:需下载4个关键模型文件(VAE、CLIP、T5XXL、主模型),总大小约30GB。首次运行时加载时间较长(34秒),后续生成1024x1024图像仅需6秒。测试显示GPU(Tesla PG503-216)占用2.5GB显存,利用率达100%,性能表现优异。该模型在ComfyUI环境下运行稳定,适合高效图像生成需求。原创 2025-12-15 23:07:26 · 256 阅读 · 0 评论 -
第五十八篇-ComfyUI+V100-32G+安装SD1.5
本次演示使用v1-5-pruned-emaonly.safetensors,放入ComfyUI/models/checkpoints。Ctrl+S 保存工作流配置。生成的效果不好,后期再调整。选中,填写,OK保存。原创 2025-12-12 22:49:41 · 455 阅读 · 1 评论 -
第五十七篇-ComfyUI+V100-32G+安装
【代码】第五十七篇-ComfyUI+V100+安装。原创 2025-12-12 22:31:05 · 436 阅读 · 2 评论 -
第五十六篇-Ollama+V100+Qwen3:32B-性能
摘要:在CentOS-7系统环境下,使用Tesla V100-32G显卡运行ollama测试qwen3:32b模型。测试显示,该配置下模型推理速度为25.34 tokens/s,显存占用22.3GB/32GB,GPU利用率达94%。虽然V100显卡已非最新,但测试结果表明其性能仍能满足个人使用需求,特别是在32GB大显存支持下能有效处理大模型推理任务。整个测试过程耗时约1分6秒,完成了1653个提示token和1605个输出token的处理。原创 2025-12-05 09:35:43 · 356 阅读 · 0 评论 -
第五十五篇-Ollama+V100+Qwen3:30B-性能
摘要:在CentOS-7系统环境下,使用配备Tesla V100-32G水冷显卡的服务器运行qwen3:30b模型进行测试。结果显示总处理时长为18.88秒,生成1344个token的速率为72.35 tokens/s。GPU温度维持在31℃,显存占用19.2GB/32GB,利用率达84%。测试表明V100显卡性能显著优于P40,水冷散热效果出色,温度控制在40℃以下。原创 2025-12-05 09:34:29 · 310 阅读 · 0 评论 -
第五十四篇-Ollama+V100+Qwen3:14B-性能
在CentOS-7系统下,使用E5-2680V4处理器和Tesla V100-32G显卡测试ollama运行qwen3:14b模型。测试显示,模型加载耗时47.8ms,生成2556个token耗时50.87秒,推理速度为50.24 token/s。GPU利用率达92%,显存占用15.2GB/32GB,温度36℃,功耗246W。系统配置和性能表现均衡,满足大模型推理需求。原创 2025-12-04 23:23:37 · 272 阅读 · 0 评论 -
第五十三篇-Ollama+V100+Qwen3:4B-性能
摘要:在CentOS-7系统环境下,使用Tesla V100-32G显卡运行qwen3:4b模型进行测试。结果显示处理3787个token耗时40.46秒,评估速率为93.98 tokens/s。GPU在84%负载下温度保持在29℃,显存使用4466MB/32768MB。测试表明V100性能显著优于P40,水冷散热效果良好,但转接板噪音问题明显。整体升级效果令人满意,运行速度表现优异。原创 2025-12-04 23:19:46 · 302 阅读 · 1 评论 -
第五十二篇-二手工作站配置-AI-LLM-Tesla V100(PG503)
本文介绍了将二手戴尔T5810工作站升级用于大模型学习的配置方案。主机搭载E5-2680V4处理器(14核28线程)、64GB DDR4内存、Tesla V100-32G水冷显卡和2TB SSD固态硬盘,配备825W电源。文章还提供了系列教程链接,包括ChatGLM-webui部署、Tesla P40配置、Miniconda3安装以及ChatGLM2-6B/ChatGLM3-6B模型下载与GPU版部署等实践内容,为使用二手设备进行大模型学习提供了完整的解决方案。原创 2025-12-04 09:11:22 · 630 阅读 · 0 评论 -
第五十一篇-AutoDL-ResNet50-显卡推理性能
本文整理了多款GPU在ResNet50推理任务下的性能数据,记录了float16和float32精度下的最大/最小处理速度(images/s)。测试结果显示:高端显卡如H800、4090D、5090等性能突出,其中H800在fp16下最高达8119.6 images/s;国产卡如华为910B2和摩尔线程C500也表现出色。数据包含warm-up迭代结果,部分显卡在fp16下存在性能跃升现象。该性能对比表格可为深度学习推理任务中的显卡选型提供参考依据。(149字)原创 2025-12-02 10:37:19 · 1355 阅读 · 0 评论 -
第五十篇-AutoDL+Ollama+V100+Qwen3:32B
在AutoDL云平台上使用V100-32GB GPU部署Qwen3-32B大模型的测试报告:配置环境包括PyTorch 2.5.1、Python 3.12和CUDA 12.4。模型下载后测试显示,推理速度达29.64 tokens/s,GPU利用率94%,显存占用20.8GB/32GB。整个测试过程耗时27.5秒,其中prompt处理速度284.28 tokens/s。该配置成功运行了32B参数规模的大模型,展现了V100 GPU在云端推理任务中的良好性能表现。原创 2025-12-02 10:26:01 · 221 阅读 · 0 评论 -
第四十九篇-Tesla P40+Fastllm+Hunyuan-A13B-Instruct+CPU+GPU混合部署推理
Fastllm在CentOS-7系统上成功部署了Hunyuan-A13B-Instruct MOE模型,使用Tesla P40显卡和64G内存环境。通过Docker容器实现一键安装运行,支持CUDA 12.2和GPU+CPU混合推理。测试显示模型加载占用45.5G内存,P40显存占用2.95G,推理速度稳定在4.9 tokens/s左右。虽然P40性能有限导致速度较慢,但Fastllm展现了良好的兼容性,支持老显卡运行大模型,为资源受限环境提供了可行方案。原创 2025-09-08 21:34:33 · 423 阅读 · 0 评论 -
第四十八篇-Docker+yusiwen/llama.cpp简单试用+CPU
当然还有 llama-server llama-run可以使用。出现> 可以交流了。原创 2025-09-04 13:32:40 · 334 阅读 · 0 评论 -
第四十七篇-Tesla P40+Qwen3-30B-A3B部署与测试
摘要:在CentOS-7系统上使用Tesla P40显卡(24G显存)运行Qwen3-30B-A3B模型,显存占用19GB(总24GB)。测试显示处理424个提示token耗时171ms(2478 token/s),413个评估token耗时10.8s(38 token/s),整体运行速度良好,证明P40显卡仍具备高效处理大模型的能力。原创 2025-05-27 23:55:19 · 728 阅读 · 0 评论 -
第四十六篇-Tesla P40关闭GPU的ECC释放部分显存
Tesla系列GPU默认开启了ECC(error correcing code,错误检查和纠正)试了试,显存多出1.5G左右。建议开启ECC,GPU可靠性高。开启ECC 提升数据可靠性,可用内存的减少和性能上的损失。关闭ECC,释放完整显存,性能优化,数据错误风险增加。原创 2025-03-11 22:34:52 · 1179 阅读 · 0 评论 -
第四十五篇-Tesla P40+QWQ-32B部署与测试
速度还是可以的,一般问题都OK的,其他性能还要再测测。原创 2025-03-07 21:52:48 · 689 阅读 · 0 评论 -
第四十四篇-Tesla P40+Janus-Pro-7B部署与测试
速度挺快,简单的快5秒,复杂的就长了20秒+也可以使用hf-mirror在线下载。速度挺慢的,30秒+,有时更长。效果不好评判,只有自己试用。deepseek原创 2025-02-14 22:27:25 · 1083 阅读 · 0 评论 -
第四十三篇-Ollama-TeslaP40-Qwen2.5-Coder-32B速度
Ollama-TeslaP40-Qwen2.5-Coder-32B原创 2024-11-21 21:52:38 · 1290 阅读 · 1 评论 -
第四十二篇-离线升级Ollama-V4.1
【代码】第四十二篇-离线升级Ollama-V4.1。原创 2024-11-21 21:51:33 · 965 阅读 · 0 评论 -
第四十一篇-Docker安装Neo4j
【代码】第四十一篇-Docker安装Neo4j原创 2024-10-02 22:48:25 · 1247 阅读 · 0 评论 -
第四十篇-TeslaP40+Ollama+Ollama-WebUI(自编译)
本文介绍用自己编辑ollama-webui,链接本地ollama。原创 2024-08-28 23:37:29 · 1358 阅读 · 0 评论
分享