侠心论码-CSDN博客

原创 blog-llama-manager

本文详细介绍了使用纯C# WinForms开发本地大模型管理器的全过程。作者最初为解决手动启动多个llama-server实例的不便，开发了一个零外部依赖的原生Windows应用。文章分三个阶段：单实例启动器开发、多实例管理功能扩展和UI界面优化。重点解决了参数面板布局、C#版本兼容性、日志输出事件订阅、Windows模糊效果等技术难题，最终实现了一个仅33KB的多功能管理器。通过内联编译和WinForms原生组件，该工具具备了模型切换、参数调节、日志监控等完整功能，展现了轻量级原生应用的高效性。

2026-06-16 08:33:48 319

原创 llama.cpp部署全记录

这篇文章详细记录了在i7-8700K+GTX 1060硬件环境下部署Qwen3.6-35B-A3B MoE模型的完整过程。作者从llama.cpp源码编译开始，解决了编译中的DLL缺失、CUDA架构优化等问题；在模型处理上对比了Q4_K_M和MXFP4两种量化格式；针对GTX 1060仅6GB显存的限制，探索了KV缓存卸载、内存优化等方案来支持120K超长上下文；还分享了MoE模型和Gemma小模型的特殊优化技巧。最终形成了一套在低配硬件上运行大模型的完整方案，并总结了详细的避坑清单。

2026-06-16 08:16:31 341

原创惠普暗影4 跑Qwen3.6-35B-A3B-MXFP4_MOE 100K上下文

摘要：惠普暗影4无核显版运行Qwen3.6-35B-A3B-MXFP4模型时，虽CPU/GPU未满载但存在内容压力。脚本显示该混合专家模型采用MXFP4量化格式，配置包含CUDA 12.8、999层GPU卸载、100K上下文窗口，并启用flash-attn加速。当前设置中，8线程CPU、5120MB缓存及256批量大小可能存在SSD硬盘和内存资源过剩问题，后续计划改用虚拟内存盘并优化内存占用。服务器监听8080端口，支持多主机连接，模型路径与多模态投影文件均经过完整性校验。（149字）

2026-06-15 19:11:08 17

原创 Qwen3.6-35B-A3B反复的参数调试可玩性很高

这是调优的参数:GTX 1060 6G 100K上下文，挺好玩的。实测跑：100K的上下文，效果还可以。对显存暂用放非常友好，目前很稳定。

2026-06-15 15:14:16 441 3

原创我的GTX 1060 6G 终于稳定了

该配置用于部署Qwen3.6-35B-A3B-Uncensored语言模型，采用混合精度量化（Q4_K_M）。关键参数包括：200K上下文窗口、GPU/CPU混合推理（各999层）、2.5倍rope扩展、0.8温度值及动态top-p/top-k采样。支持多模态（mmproj投影）、512批量处理，使用k/v缓存优化（q4_0格式）和5.12GB显存分配。服务端运行于8080端口，提供UI界面及性能监控，支持300秒超时和对话状态保存。特别启用flash-attention加速和反审查机制，适用于高性能生成任

2026-06-13 23:10:33 231

原创 llamacpp 跑100K起步能达到16t/s GTX1060G 6G

文章摘要：该批处理脚本用于配置和启动一个名为Qwen3.6-35B-A3B-Uncensored的AI模型服务器，基于llama.cpp框架。脚本包含以下内容：1. 设置终端颜色变量；2. 定义模型文件、服务器程序和目录路径；3. 进行必要的文件检查；4. 显示模型信息和配置参数（包括CUDA 12.8、999层GPU加速、100K上下文长度等）；5. 启动服务器命令，包含详细的运行参数（端口8080、批量大小512、温度0.80等）。备注指出该代码在OpenCode中可流畅运行，但在OpenClaw中会出

2026-06-08 07:43:57 196

原创 GTX 1060 6G显存 llama-b9415-bin-win-cuda-12.4-x64图形化UI面板

Windows原生EXE封装完成

2026-06-02 09:14:17 255

原创 Llama 模型管理器 — 开源本地 AI 模型启动管理工具

NewModel("Granite-4.1-3B-Q4", "Granite-4.1-3B-Q4服务器.bat", "Granite 4.1 3B Q4", 8086),NewModel("Qwen3.5-4B-Q4", "Qwen3.5-4B-Q4服务器.bat", "Qwen 3.5 4B Q4", 8090),NewModel("Qwen3.5-4B-Q8", "Qwen3.5-4B-Q8服务器.bat", "Qwen 3.5 4B Q8", 8091),**为什么保留硬编码模型列表？

2026-05-29 08:55:25 382

原创 llama.cpp 编译 Qwen3.5-4B GPU 推理全记录

Qwen3.5-4B · 推理引擎：llama.cpp · GPU：NVIDIA GTX 1660

2026-05-19 10:16:14 296

原创 llama.cpp MTP 编译完整指南（如果不是为了试用，不建议在低显存下）

但这个功能必须从最新源码编译才能启用——直接用预编译包是没有的。| 查看 GPU 显存 | `nvidia-smi --query-gpu=memory.used,memory.free --format=csv` || `-DCMAKE_CUDA_FLAGS="-Wno-deprecated-gpu-targets"` | 抑制 sm_61 已被标记过时的警告 |2. 安装时选 **自定义** → 只勾 **CUDA** → **取消勾选 Driver / PhysX**（驱动你已经有了）

2026-05-18 10:58:07 1246 4

原创 [特殊字符] 本地 AI 推理服务器 — 部署与调优报告

2026-05-18 08:41:40 117

ZQQ5800的博客