自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 blog-llama-manager

本文详细介绍了使用纯C# WinForms开发本地大模型管理器的全过程。作者最初为解决手动启动多个llama-server实例的不便,开发了一个零外部依赖的原生Windows应用。文章分三个阶段:单实例启动器开发、多实例管理功能扩展和UI界面优化。重点解决了参数面板布局、C#版本兼容性、日志输出事件订阅、Windows模糊效果等技术难题,最终实现了一个仅33KB的多功能管理器。通过内联编译和WinForms原生组件,该工具具备了模型切换、参数调节、日志监控等完整功能,展现了轻量级原生应用的高效性。

2026-06-16 08:33:48 319

原创 llama.cpp部署全记录

这篇文章详细记录了在i7-8700K+GTX 1060硬件环境下部署Qwen3.6-35B-A3B MoE模型的完整过程。作者从llama.cpp源码编译开始,解决了编译中的DLL缺失、CUDA架构优化等问题;在模型处理上对比了Q4_K_M和MXFP4两种量化格式;针对GTX 1060仅6GB显存的限制,探索了KV缓存卸载、内存优化等方案来支持120K超长上下文;还分享了MoE模型和Gemma小模型的特殊优化技巧。最终形成了一套在低配硬件上运行大模型的完整方案,并总结了详细的避坑清单。

2026-06-16 08:16:31 341

原创 惠普暗影4 跑Qwen3.6-35B-A3B-MXFP4_MOE 100K上下文

摘要:惠普暗影4无核显版运行Qwen3.6-35B-A3B-MXFP4模型时,虽CPU/GPU未满载但存在内容压力。脚本显示该混合专家模型采用MXFP4量化格式,配置包含CUDA 12.8、999层GPU卸载、100K上下文窗口,并启用flash-attn加速。当前设置中,8线程CPU、5120MB缓存及256批量大小可能存在SSD硬盘和内存资源过剩问题,后续计划改用虚拟内存盘并优化内存占用。服务器监听8080端口,支持多主机连接,模型路径与多模态投影文件均经过完整性校验。(149字)

2026-06-15 19:11:08 17

原创 Qwen3.6-35B-A3B反复的参数调试可玩性很高

这是调优的参数:GTX 1060 6G 100K上下文,挺好玩的。实测跑:100K的上下文,效果还可以。对显存暂用放非常友好,目前很稳定。

2026-06-15 15:14:16 441 3

原创 我的GTX 1060 6G 终于稳定了

该配置用于部署Qwen3.6-35B-A3B-Uncensored语言模型,采用混合精度量化(Q4_K_M)。关键参数包括:200K上下文窗口、GPU/CPU混合推理(各999层)、2.5倍rope扩展、0.8温度值及动态top-p/top-k采样。支持多模态(mmproj投影)、512批量处理,使用k/v缓存优化(q4_0格式)和5.12GB显存分配。服务端运行于8080端口,提供UI界面及性能监控,支持300秒超时和对话状态保存。特别启用flash-attention加速和反审查机制,适用于高性能生成任

2026-06-13 23:10:33 231

原创 llamacpp 跑100K起步能达到16t/s GTX1060G 6G

文章摘要:该批处理脚本用于配置和启动一个名为Qwen3.6-35B-A3B-Uncensored的AI模型服务器,基于llama.cpp框架。脚本包含以下内容:1. 设置终端颜色变量;2. 定义模型文件、服务器程序和目录路径;3. 进行必要的文件检查;4. 显示模型信息和配置参数(包括CUDA 12.8、999层GPU加速、100K上下文长度等);5. 启动服务器命令,包含详细的运行参数(端口8080、批量大小512、温度0.80等)。备注指出该代码在OpenCode中可流畅运行,但在OpenClaw中会出

2026-06-08 07:43:57 196

原创 GTX 1060 6G显存 llama-b9415-bin-win-cuda-12.4-x64图形化UI面板

Windows原生EXE封装完成

2026-06-02 09:14:17 255

原创 Llama 模型管理器 — 开源本地 AI 模型启动管理工具

NewModel("Granite-4.1-3B-Q4", "Granite-4.1-3B-Q4服务器.bat", "Granite 4.1 3B Q4", 8086),NewModel("Qwen3.5-4B-Q4", "Qwen3.5-4B-Q4服务器.bat", "Qwen 3.5 4B Q4", 8090),NewModel("Qwen3.5-4B-Q8", "Qwen3.5-4B-Q8服务器.bat", "Qwen 3.5 4B Q8", 8091),**为什么保留硬编码模型列表?

2026-05-29 08:55:25 382

原创 llama.cpp 编译 Qwen3.5-4B GPU 推理全记录

Qwen3.5-4B · 推理引擎:llama.cpp · GPU:NVIDIA GTX 1660

2026-05-19 10:16:14 296

原创 llama.cpp MTP 编译完整指南(如果不是为了试用,不建议在低显存下)

但这个功能必须从最新源码编译才能启用——直接用预编译包是没有的。| 查看 GPU 显存 | `nvidia-smi --query-gpu=memory.used,memory.free --format=csv` || `-DCMAKE_CUDA_FLAGS="-Wno-deprecated-gpu-targets"` | 抑制 sm_61 已被标记过时的警告 |2. 安装时选 **自定义** → 只勾 **CUDA** → **取消勾选 Driver / PhysX**(驱动你已经有了)

2026-05-18 10:58:07 1246 4

原创 [特殊字符] 本地 AI 推理服务器 — 部署与调优报告

2026-05-18 08:41:40 117

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除