- 博客(11)
- 收藏
- 关注
原创 blog-llama-manager
本文详细介绍了使用纯C# WinForms开发本地大模型管理器的全过程。作者最初为解决手动启动多个llama-server实例的不便,开发了一个零外部依赖的原生Windows应用。文章分三个阶段:单实例启动器开发、多实例管理功能扩展和UI界面优化。重点解决了参数面板布局、C#版本兼容性、日志输出事件订阅、Windows模糊效果等技术难题,最终实现了一个仅33KB的多功能管理器。通过内联编译和WinForms原生组件,该工具具备了模型切换、参数调节、日志监控等完整功能,展现了轻量级原生应用的高效性。
2026-06-16 08:33:48
319
原创 llama.cpp部署全记录
这篇文章详细记录了在i7-8700K+GTX 1060硬件环境下部署Qwen3.6-35B-A3B MoE模型的完整过程。作者从llama.cpp源码编译开始,解决了编译中的DLL缺失、CUDA架构优化等问题;在模型处理上对比了Q4_K_M和MXFP4两种量化格式;针对GTX 1060仅6GB显存的限制,探索了KV缓存卸载、内存优化等方案来支持120K超长上下文;还分享了MoE模型和Gemma小模型的特殊优化技巧。最终形成了一套在低配硬件上运行大模型的完整方案,并总结了详细的避坑清单。
2026-06-16 08:16:31
341
原创 惠普暗影4 跑Qwen3.6-35B-A3B-MXFP4_MOE 100K上下文
摘要:惠普暗影4无核显版运行Qwen3.6-35B-A3B-MXFP4模型时,虽CPU/GPU未满载但存在内容压力。脚本显示该混合专家模型采用MXFP4量化格式,配置包含CUDA 12.8、999层GPU卸载、100K上下文窗口,并启用flash-attn加速。当前设置中,8线程CPU、5120MB缓存及256批量大小可能存在SSD硬盘和内存资源过剩问题,后续计划改用虚拟内存盘并优化内存占用。服务器监听8080端口,支持多主机连接,模型路径与多模态投影文件均经过完整性校验。(149字)
2026-06-15 19:11:08
17
原创 Qwen3.6-35B-A3B反复的参数调试可玩性很高
这是调优的参数:GTX 1060 6G 100K上下文,挺好玩的。实测跑:100K的上下文,效果还可以。对显存暂用放非常友好,目前很稳定。
2026-06-15 15:14:16
441
3
原创 我的GTX 1060 6G 终于稳定了
该配置用于部署Qwen3.6-35B-A3B-Uncensored语言模型,采用混合精度量化(Q4_K_M)。关键参数包括:200K上下文窗口、GPU/CPU混合推理(各999层)、2.5倍rope扩展、0.8温度值及动态top-p/top-k采样。支持多模态(mmproj投影)、512批量处理,使用k/v缓存优化(q4_0格式)和5.12GB显存分配。服务端运行于8080端口,提供UI界面及性能监控,支持300秒超时和对话状态保存。特别启用flash-attention加速和反审查机制,适用于高性能生成任
2026-06-13 23:10:33
231
原创 llamacpp 跑100K起步能达到16t/s GTX1060G 6G
文章摘要:该批处理脚本用于配置和启动一个名为Qwen3.6-35B-A3B-Uncensored的AI模型服务器,基于llama.cpp框架。脚本包含以下内容:1. 设置终端颜色变量;2. 定义模型文件、服务器程序和目录路径;3. 进行必要的文件检查;4. 显示模型信息和配置参数(包括CUDA 12.8、999层GPU加速、100K上下文长度等);5. 启动服务器命令,包含详细的运行参数(端口8080、批量大小512、温度0.80等)。备注指出该代码在OpenCode中可流畅运行,但在OpenClaw中会出
2026-06-08 07:43:57
196
原创 Llama 模型管理器 — 开源本地 AI 模型启动管理工具
NewModel("Granite-4.1-3B-Q4", "Granite-4.1-3B-Q4服务器.bat", "Granite 4.1 3B Q4", 8086),NewModel("Qwen3.5-4B-Q4", "Qwen3.5-4B-Q4服务器.bat", "Qwen 3.5 4B Q4", 8090),NewModel("Qwen3.5-4B-Q8", "Qwen3.5-4B-Q8服务器.bat", "Qwen 3.5 4B Q8", 8091),**为什么保留硬编码模型列表?
2026-05-29 08:55:25
382
原创 llama.cpp 编译 Qwen3.5-4B GPU 推理全记录
Qwen3.5-4B · 推理引擎:llama.cpp · GPU:NVIDIA GTX 1660
2026-05-19 10:16:14
296
原创 llama.cpp MTP 编译完整指南(如果不是为了试用,不建议在低显存下)
但这个功能必须从最新源码编译才能启用——直接用预编译包是没有的。| 查看 GPU 显存 | `nvidia-smi --query-gpu=memory.used,memory.free --format=csv` || `-DCMAKE_CUDA_FLAGS="-Wno-deprecated-gpu-targets"` | 抑制 sm_61 已被标记过时的警告 |2. 安装时选 **自定义** → 只勾 **CUDA** → **取消勾选 Driver / PhysX**(驱动你已经有了)
2026-05-18 10:58:07
1246
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅