- 博客(196)
- 收藏
- 关注
原创 GPUStack × CherryStudio:为企业用户构建安全可靠的本地私有化 AI 助手(下)
注意:某些模型的函数调用输出格式与 CherryStudio 预期不一致,可能导致未能按预期调用知识库。向量嵌入是现代检索与问答系统的重要组成部分,通过将文本或文档映射为高维向量,实现语义级相似度匹配,从而提升搜索与问答质量。如果模型判断问题简单而不触发查库,可通过系统提示词明确约束:回答必须依据知识库内容。上述示例中,答案不正确,主要由于模型尺寸(7B)与量化精度(4bit)受限。结合 CherryStudio 的多模态界面、知识库与插件体系,可构建功能完整的 AI 助手中心。大语言模型 (LLM)
2026-04-08 15:13:33
26
原创 GPUStack × CherryStudio:为企业用户构建安全可靠的本地私有化 AI 助手(中)
至此,CherryStudio 即可调用 GPUStack 上部署的模型,获得与 OpenAI 一致的使用体验,同时实现对数据与算力的完全掌控。Base URL:http://your_server_ip/v1-openai/(注意:末尾斜杠必需)打开 CherryStudio,进入「设置」→「模型服务」,搜索 “GPUStack”项目地址:https://github.com/gpustack/gpustack。点击「保存」,转到「部署」页面,等待状态变为 Running。(可选)设置默认模型。
2026-04-03 17:29:54
162
原创 GPUStack × CherryStudio:为企业用户构建安全可靠的本地私有化 AI 助手(上)
随着大模型的普及,越来越多的企业希望借助 AI 提升工作效率——从智能对话、文档分析到知识问答与研发辅助,AI 正在重塑企业的工作方式。但在实际落地中,数据安全与隐私合规始终是绕不过的问题。为确保企业核心数据不外流、私有化模型稳定可控,逐渐成为企业首选方案,而 CherryStudio 与 GPUStack 的结合,正是这一需求的理想实现。
2026-04-02 17:46:34
207
原创 昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署(下)
通过以上教程,我们已经成功在 GPUStack 集群上使用 Ascend MindIE 的分布式推理能力,部署运行 DeepSeek R1 671B。相比,GPUStack 在部署过程中简化了繁琐的手动配置步骤,降低了配置出错或遗漏的风险,使得在昇腾硬件上运行超大规模模型的过程更加。页面:若仅部署了一个模型,系统会默认选中该模型若部署了多个模型,则可在右侧模型选项,下拉手动选择。方法是进入其他服务器节点的 GPUStack 容器,打开以下路径,检查对应的。中,可以看到资源使用情况,其中。
2026-04-01 17:19:53
153
原创 GPUStack新手教程: 组建GPU集群运行大模型(下)
选择你期望的调用代码格式(curl, Python, Node.js),并加入之前的 API 秘钥,然后在你的应用中使用这段调用代码来让应用与你的私有大模型通信。查看 GPUStack 日志的路径和命令如下:tail -200f /var/log/gpustack.log。查看 GPUStack 日志的路径和命令如下:tail -200f /var/log/gpustack.log。,在这里自定义你的大模型,例如调整系统 prompt,添加小样本学习样例,或调整 prompt 参数。这使得平台管理员可以。
2026-03-31 17:29:38
207
原创 GPUStack新手教程: 组建GPU集群运行大模型(上)
(可选)要添加更多的 Worker 节点组建成 GPU 集群,请在其他要加入集群的 Worker 节点上执行以下命令:curl -sfL https://get.gpustack.ai | sh - --server-url http://myserver --token mytoken。进而,开发人员则可以。完成后,通过 http://myserver (替换为你所安装的主机 IP 或域名)在浏览器访问 GPUStack,以 admin 用户名和默认密码登录。要在 Windows 系统上安装,以。
2026-03-30 17:38:45
321
原创 昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署(上)
在昇腾 NPU 上部署超大规模模型,往往面临一个现实难题:目前主流的官方推理引擎的虽然性能表现尚可,但。从环境准备、配置初始化到参数细节调整,每一步都需要格外谨慎,否则极易因细节遗漏或配置错误而导致部署失败,问题定位也十分困难。是一个,提供,能够运行在等多种 GPU 上,轻松构建异构 GPU 集群,支持等各种推理引擎。为了降低部署门槛,GPUStack 提供了,用户只需少量 UI 配置,就能完成过去需要大量手动步骤、文档比对与重复调试的部署流程。
2026-03-27 14:56:19
427
原创 如何测算大模型对内存/显存的资源需求
指定模型的多少层被卸载到 GPU。执行完成后,可以在“ARCHITECTURE”部分的“Max Context Len”部分查看模型的最大上下文大小。在资源充足的情况下,该模型的所有层都将被卸载到 GPU 进行加速,这将最大化地利用 GPU ,但同时也可能会给 GPU 带来压力。在各种环境中,我们可以通过测算模型的资源需求来确定应该选择的模型参数规模和合适的量化方法。的运行参数(在 MacOS 中需要在“隐私和安全设置”中允许 gguf-parser 运行)gguf-parser -h。
2026-03-26 17:17:24
347
原创 这个大模型运行需要多少资源?
参数来跳过其他部分只显示测算结果:gguf-parser --hf-repo rubra-ai/Meta-Llama-3-8B-Instruct-GGUF -hf-file rubra-meta-llama-3-8b-instruct.Q4_K_M.gguf --gpu-layers-step 5 --skip-architecture --skip-model --skip-tokenizer。,确认要运行某个模型需要提供的资源,也可以确定现有的资源应该选择多大的模型参数和合适的量化方法。
2026-03-25 17:35:57
326
原创 Continue+GPUStack打造免费的GitHub Copilot
允许我们在 VS Code 和 JetBrains 中连接各种大模型来构建自定义的代码自动补全和聊天能力。在本地构建免费的 GitHub Copilot,无成本地为开发人员提供 AI 结对编程能力。来在本地构建免费的 GitHub Copilot,为开发人员提供 AI 结对编程的体验。等等能力,辅助开发人员进行代码开发,从而提高开发人员的编码速度。,由 Hugging Face 训练的一个高水平的自动补全模型。的配置,连接 GPUStack 部署的模型。模型,然后就可以使用前面介绍的功能了。
2026-03-24 17:10:16
407
原创 AnythingLLM+GPUStack打造专属的ChatGPT+知识库
且 AnythingLLM 不仅仅是一个简单的聊天机器人,还具备一些 RAG 和 Agent 能力,可以通过 Agent 执行更多功能,例如抓取网站信息、制作图表、总结文档等。,性能和上下文相对较弱,更强大的 Embedding 模型需要选择商业 LLM 服务或自行运行一些开源的 Embedding 模型,这里配置前面用。AnythingLLM 可以将各种类型的文档整合到不同的工作区,在聊天中引用这些文档内容,为不同的工作场景和不同文档提供了简单直接的工作分区能力。,由 Meta 训练的最新开源模型。
2026-03-23 16:55:47
413
原创 释放 H200 全部潜力:DeepSeek-V3.2 推理性能提升 161% 的优化秘籍
在 AI 应用快速落地的今天,大语言模型的推理性能成为制约其广泛使用的关键因素。DeepSeek-V3.2 作为能力领先的开源模型,在实际部署中面临着性能调优的复杂挑战。我们通过系统的优化实验发现:相比于未优化的 vLLM 基线配置,经过针对性调优的 DeepSeek-V3.2 在 NVIDIA H200 集群上实现了。基于推理引擎的默认表现,我们深入探索了 vLLM 和 SGLang 各种并行策略的组合效果。有收益,上下文长度裁剪有一定优化,但是上下文长度与业务上下文强相关,不作为默认推荐。
2026-03-19 17:32:18
398
原创 阿里 PPU 加入 GPUStack 国产算力版图:异构算力统一调度的重磅里程碑(上)
GPUStack v2.1 正式新增对(平头哥)的支持,在 PPU 平台上实现。在等多种算力平台的基础上,此次 PPU 的加入,使 GPUStack 的国产算力支持版图进一步扩展,也让平台在方面迈出新的一步。过去几年,大模型技术快速发展,算力正逐渐从单一硬件资源演变为企业 AI 基础设施的重要组成部分。与此同时,数据中心的算力形态也在不断丰富 —— 不同厂商、不同架构的加速器开始在同一环境中并存运行。如何在这样的环境下实现,逐渐成为企业 AI 基础设施建设中的现实问题。
2026-03-17 17:44:43
350
原创 GPUStack 离线部署镜像准备与国内加速源
在 GPUStack 的实际部署中,经常会遇到一个问题:。无论是还是节点,运行的都是这个主镜像。但在模型推理时,GPUStack 会根据所使用的,自动拉取对应的。在在线环境中,这些镜像可以按需自动下载;而在中,如果提前不知道需要哪些镜像,就可能在部署过程中反复补充镜像,影响部署效率。通过简单的选项选择,就可以,方便提前准备离线部署所需的镜像。
2026-03-16 17:48:51
383
原创 GPUStack × MaxKB:打造强大易用的开源企业级智能体平台(下)
按照同样方式添加:qwen3-reranker-4b qwen3-embedding-4b。填入 GPUStack 文档地址,MaxKB 会自动抓取并解析页面内容。原因是 MaxKB 使用的是:/v2/rerank。在 MaxKB 顶部导航栏选择。创建知识库, 这里选择。发布成功后即可开始对话。创建 AI Agent。
2026-03-13 17:50:59
36
原创 GPUStack × MaxKB:打造强大易用的开源企业级智能体平台(中)
默认账号密码:docker run -d --name=maxkb --restart=always -p 8080:8080 -v ~/.maxkb:/opt/maxkb 1panel/maxkb。部署完成后可在 Playground 中测试。部署 Qwen3-Embedding-4B。首次登录会提示修改密码,按照提示修改即可。页面,选择所需模型并按照提示部署即可。部署 Qwen3-Reranker-4B。如果当前没有部署模型,页面中间会出现。部署 Qwen3.5-35B-A3B。
2026-03-12 17:47:42
220
原创 GPUStack × MaxKB:打造强大易用的开源企业级智能体平台(上)
如果你同时在寻找这两个问题的解决方案,那么的组合非常值得尝试。:专注于 GPU 资源管理与模型部署,支持多节点集群和多模型服务。:一个开源的企业级知识库与 AI 应用平台,可以快速构建知识库问答和 AI Agent。通过将,就可以非常方便地构建一个。本文将从零开始,完整演示整个流程。
2026-03-11 17:46:53
394
原创 Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手(下)
如果出现反复授权,并提示:duplicate plugin id detected。可尝试:rm -rf ~/.openclaw/extensions/feishu。当推理能力、上下文和工具调用都变成基础设施的一部分,不妨亲手试一次,把 AI 真正接进你的日常工作流里。当模型运行在云端、能力掌握在别人手里时,而当模型真正跑在自己的 GPU 上,它不再是一次次付费调用的 API,当你不再关心 Token 的时候,1. 在飞书中向机器人发送消息。如果你已经拥有 GPU 资源,:查看 / 切换模型。
2026-03-10 16:52:10
252
原创 Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手(中)
打开 https://open.feishu.cn/app?lang=zh-CN。飞书侧还有一项配置,需要在接入 OpenClaw 后进行,后文说明。OpenClaw 默认上下文长度为。4. 设置飞书事件订阅方式(关键)填写应用名称与描述(图标可选)3. 手动调整上下文窗口(必做)填写 GPUStack 的。,否则机器人无法接收消息。飞书左下角「⋯」 →。登录企业 / 组织账号。2. 交互式配置向导。
2026-03-09 16:35:04
432
原创 Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手(上)
基于 GPUStack 提供的本地模型能力,结合 OpenClaw(支持 WhatsApp、Telegram、Discord、Slack、飞书等多种协作平台) 与飞书,本文将一步步演示如何构建一个。很多人一边依赖 AI 提效,一边又不得不「省着用」「少让它多想」。到最后,AI 反而成了一种被精打细算的消耗品。如果 AI 能跑在自己的 GPU 上,这两年,越来越多团队把 AI 接入了日常工作流。中完成模型部署,并获取模型服务的访问信息。「推理后端」→「编辑 vLLM」→「添加版本」的本地 AI 助手。
2026-03-06 17:28:35
173
原创 Openclaw部署教程一全网最新、最详细(保姆级教程)
网上的教程很多,大多已经过时,且步骤太简短,对于很多新手小白都不友好。建议大家先选免费的试试水,我这边选择的是智谱GLM4.7去官网找到APlkey,点击“添加新的APlkey”,复制key准备好。4.最后一个问题是选择访问龙虾的方式,选open the WebUI网页版,适合绝大多数非编程背景的朋友,选完后会自动弹出网页。装完后打开命令行,分别输入 node -V、npm -V、git -v,能输出版本号就说明准备就绪了。继续测试,比如让它在桌面创建一个文件夹,能成功创建就可以正常用了。
2026-03-05 17:17:01
1195
原创 OpenClaw如何实现本地优先的数据处理?有哪些技术优势?
OpenClaw 的“本地优先”不是一句口号,而是通过将 AI 的“大脑”(推理)与“手脚”(执行)分离实现的。它让 AI 回归工具本质——在你的电脑上,用你的权限,处理你的数据,最终实现 “我的数据我做主” 的终极目标。• 本地执行:当 AI 解析出“整理桌面截图”的指令后,它不会把截图文件读入内存,而是生成一个 file_move 动作。其核心逻辑是:数据不离开你的设备,AI 只负责“翻译”指令,本地系统负责“动手”执行。它不直接操作数据,而是通过“动作指令”指挥本地系统干活。
2026-03-04 17:17:07
275
原创 Token和API有什么区别?
你可以把 API 想象成一家餐厅的菜单(定义了你能点什么菜),而 Token 则是你进入这家餐厅的会员卡(证明你有资格点菜)。• API:是 https://api.openai.com/v1/chat/completions,它定义了聊天的规则。• Token:是 sk-... 这串密钥,你必须在请求中带上它,OpenAI 才知道是“你”在调用,而不是别人。Token 和 API 是两个完全不同的概念,但它们经常在技术开发中“成对出现”,共同完成身份验证和功能调用的任务。二、 它们如何协同工作?
2026-03-03 17:34:02
128
原创 See Dance 2.0:新时代的产物
See Dance 2.0它是字节跳动基于Seed大模型自研的AI视频生产力工具,2026年2月发布即爆火,标志着AIGC从“玩具”迈入“工业级商用”,是内容创作新时代的里程碑。See Dance 2.0是AI视频的“游戏规则改变者”,把内容创作从“专业垄断”拉到“全民普惠”,开启人人都是导演、人人都能拍电影的新时代。• 原生音画同步:双分支扩散Transformer架构,视频+音频同生,口型/动作/音效严丝合缝,彻底告别错位。• 零门槛:一句话+一张图,60秒出2K电影级视频,不用拍摄、剪辑、专业技能。
2026-03-02 17:29:54
216
原创 [特殊字符] OpenClaw 搭建全流程(保姆级)
• 网络:可访问 GitHub、模型服务(如 OpenAI/智谱/阿里云百炼)• 系统:macOS / Linux / Windows(需 WSL2)3. 配置 模型 API Key(OpenAI/智谱/阿里云百炼等)• Node.js:≥ 22.x(安装后 node -v 验证)4. 绑定通讯渠道(Telegram/钉钉/企业微信等)• 端口:放行 22、80、18789(服务器部署)二、安装 OpenClaw(3种方式,推荐一键脚本)四、模型配置(以阿里云百炼为例)方式1:一键脚本(最快)
2026-02-28 17:16:33
373
原创 主流IM SDK对比
• 选腾讯云IM:需要高并发、音视频强、腾讯生态(直播/游戏/社交)• 选环信IM:需要企业级稳定、客服场景、易集成(办公/教育/电商)• 选蓝莺IM:需要私有化、轻量、AI本地集成(内部工具/隐私项目。• 选融云IM:需要全球化、出海、AI风控(跨境/社区/海外)• 腾讯云IM:SSL/TLS加密,等保三级,内容审核。• 环信IM:AES加密,等保/GDPR,国密可选。• 腾讯云IM:腾讯自研,微信/QQ同源技术。• 环信IM:老牌IM,企业/客服场景成熟。◦ 弱网/高并发极强,适合直播/游戏/社交。
2026-02-27 17:30:03
298
原创 AI大模型——从堆参数转向效率+智能体+产业落地
AI大模型前景长期确定性极强、短期进入价值兑现期,正从“堆参数”转向效率+智能体+产业落地,是未来3-5年数字经济核心引擎。3. 多模态产业化:视频生成、3D、具身智能进入工业级,内容/影视/游戏重构。◦ 告别参数竞赛,转向MoE、稀疏化、量化、动态推理,成本降10-100倍。◦ 垂直场景爆发:制造、医疗、金融、教育、政务、内容全面落地。• 数据与安全:高质量数据稀缺,隐私、合规、幻觉、偏见待解决。◦ 成为数字基础设施,嵌入云、ERP、办公、工业系统。• 人才缺口:AI架构、智能体、垂直行业专家紧缺。
2026-02-26 17:13:36
356
原创 AI春晚引爆全民智能浪潮
例如将一号厅转化为沉浸式水下世界,配合书法笔触的AI动态生长,实现了“起笔含苞,收锋盛放”的中式美学表达。2026年马年春晚堪称史上“含AI量”最高的一届,AI彻底从舞台炫技的“配角”升级为贯穿全流程的“主角”。从幕后的内容生成、中台的算力调度,到台前的机器人表演、终端的用户互动,AI技术实现了全链路覆盖,标志着春晚正式进入了“智媒新纪元”。• 情景化互动演绎:在小品《奶奶的最爱》中,机器人不仅能完成后空翻等高难度动作,还能与演员进行自然的现场调侃和互动,展现了AI在情感交互与语言理解上的成熟度。
2026-02-25 17:05:34
326
原创 实测|咕噜分发·兔唧内网文件快传办公党真实体验
兔唧内网文件快传是咕分发里非常实用的内网效率工具,主打一个快、简、安全。作为每天在内网传安装包、文档、素材的打工人,最近一直在用咕噜分发里的兔唧内网文件快传,纯使用者视角,把怎么用、为什么选、好在哪、坑在哪一次性说清。• 内网专属,不碰外网:公司敏感文件、项目包不敢传微信/钉钉/网盘,这个只在内网跑,安全合规。• 集成在咕噜分发:不用到处找工具,分发、安装、快传一站式,团队统一用很方便。适合:公司内网办公、团队互传大文件、运维分发安装包、设计师传素材。• 零学习成本:同事、运维、新人都会用,不用教。
2026-02-24 17:43:07
166
原创 实测好用:咕噜分发在线plist生成,iOS分发一步搞定
最近一直在用咕噜分发-在线plist生成,零代码、可视化,几分钟搞定,分享真实使用体验。总体来说,咕噜分发在线plist生成是把“麻烦事变简单”的工具,稳定、免费、好上手,iOS内测分发必备。4. 下载/复制:直接下载plist文件,或复制生成链接,配合itms-services协议做成安装链接。也可直接访问专用页面。• 不适合:需要深度定制plist、离线使用、超大规模分发。• 适合:个人开发者、小团队内测、临时分发、快速迭代测试。• 生态联动:和咕噜签名、分发、下载页打通,复制即用。
2026-02-13 16:00:35
284
原创 ios证书在线检测IPA证书P12证书检测证书掉签检测
做iOS分发最头疼的就是证书过期、吊销、掉签、描述文件不匹配,用户装不上、闪退,查半天还定位不到问题。P12需输密码,全程本地加密不上传私钥。10秒内出结果:证书状态、是否吊销/过期、有效期、证书类型(开发/发布/企业)、BundleID、签名完整性、掉签风险,一目了然。• 精准定位:直接告诉你是证书吊销、过期、BID不匹配、描述文件失效,省90%排查时间。✅ 适合:独立开发者、中小团队、内测发包、渠道运营、企业签自查、上线前预检。这篇是纯使用者视角、实测口吻,,包含使用步骤、选择原因、优缺点、避坑建议。
2026-02-12 16:05:08
475
原创 分享一个渠道管理简介系统说明使用及教程
首先需完成平台实名认证(实名认证后可领取5000分发点,相当于基础使用额度),登录xx分发Web后台后,进入「渠道管理」模块前需确保已完成应用的打包与签名配置(支持超级签名、企业签名、TF签名三种模式,按需选择即可)。我们之前曾用多款工具分别处理打包、签名、分发、反馈收集,仅渠道管理就需要在2个平台间切换,效率极低xx分发将渠道管理与开发、打包、测试、合规检测等功能集成,从应用构建到渠道分发再到数据回收,全链路在一个平台完成,据团队统计,仅渠道相关工作就节省了40%的时间。
2026-02-11 17:49:13
379
原创 UDID-iOS硬件身份证 内测应用超级签 企业签
自从用了咕噜分发的UDID工具,流程直接简化到手机点几下,效率拉满。从手动查UDID、来回发截图、经常错号,到现在扫码即得、后台统一管,咕噜分发把iOS内测最烦的环节解决了。不管是个人开发者小范围测试,还是团队批量内测,这套UDID流程都稳、快、准。这篇从真实使用者视角写的帖子,讲清UDID是什么、为什么选咕噜分发、一步一步怎么用,直接可用。如果你还在为收UDID头疼,真心建议试一下xx分发,用过就回不去了。专注工具属性,加载快、成功率高,适合长期内测用。2. 生成UDID获取二维码/链接,发给测试。
2026-02-10 17:48:52
429
原创 分享一个安卓Android文件APKapp应用Dex加固防止抓包代码混淆防反编译防调试防注入防二次打包
低门槛:无需专业安全知识:作为开发,平时没太多精力研究复杂的加固技术,咕噜的预设方案+一键操作,不用懂DEX混淆、So加固的原理,也能完成基础安全防护,还能在线生成证书,避免了本地配置证书的各种坑,新手也能快速上手。4.生成分发链接/二维码:签名完成后,系统会自动生成专属下载页和二维码,支持“一码二用”(自动识别安卓机型,无需区分包体),直接分享给测试团队即可,测试人员扫码后能秒装,无需额外授权,全机型兼容度较高。整个流程下来,无需切换多个工具,从加固到分发一站式搞定,对非专业安全人员很友好。
2026-02-06 16:49:15
656
原创 咕噜分发-证书通知监测系统
咕噜分发证书通知监测系统是一款专注于移动应用(如iOS/Android应用)证书状态监控与管理的工具。该系统通过实时监测证书(如企业签名证书、开发证书等)的过期时间、吊销状态及分发情况,帮助开发者或企业及时规避因证书失效导致的应用无法安装或运行的风险。
2026-02-05 17:39:03
146
原创 咕噜分发-APP专家安全测试
咕噜分发作为APP分发平台,其安全测试服务专注于识别应用潜在漏洞与风险,确保应用在上架前符合安全标准。测试涵盖代码审计、数据安全、权限管理等多维度检测,适用于Android/iOS应用。
2026-02-05 17:23:32
290
原创 咕噜分发——APP图标在线制作
咕噜分发(gulufenfa.com)的是该平台提供的一项实用功能,主要面向APP开发者、测试人员及企业用户,用于快速生成符合iOS/Android平台规范的APP图标资源包。
2026-02-04 17:58:19
659
原创 墨蝌签名平台保姆级使用教程(www.moooke.com/)下
4、证书和插件都选择完毕后,点击开始签名,弹出签名提示框点击继续签名,(提示:签名需要消耗点数)2、注册完成后进入登录页面,输入账号密码,进行登录,也可以使用咕噜账号进行登录。1、首页进入签名页,点击右上角的用户图标,点击墨点余额,弹出充值提示框。5、或者可以在上传签名文件时,选择购买墨点,也可以进入购买页面。2、选中要签名的文件后,双击文件进行上传或者拖拽文件到上传框。1、进入上传证书页面,点击上传p12文件和mp文件。3、上传文件后,选择证书和插件(插件可不选),1、进入签名页后,点击上传文件。
2026-02-04 17:32:47
130
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅