碳基硅坊-CSDN博客

原创双卡 4090 跑 Qwen3.6-35B-A3B：vLLM + AWQ 4bit 评测

双卡 RTX 4090 24GB 使用 vLLM 部署 Qwen3.6-35B-A3B-AWQ-4bit，测试吞吐、延迟、长上下文、推测解码和显存表现。

2026-06-18 08:46:07 589

原创把模型压成 4 位:聊一聊 NVFP4 与支持的显卡

NVFP4 是 NVIDIA Blackwell 原生支持的 4 位浮点格式,双层缩放把 Qwen 3.5、Gemma 4 等大模型显存压到 FP16 的 1/4,精度损失<1%,需 B200/GB200/RTX 50 等 Blackwell GPU 硬件加速。

2026-06-17 09:14:27 446

原创本地部署Qwen3.6-35B-A3B并接入联网功能

使用 Ollama 在本机跑通阿里开源的 Qwen3.6-35B-A3B，再通过 Open WebUI 接入联网搜索。

2026-06-16 09:29:19 482

原创从零实现一个 Web 搜索 MCP 插件

本文用一个可落地的 Node.js 示例，讲清如何实现 Web 搜索 MCP 插件：声明工具、处理stdio/SSE、搜索解析、网页正文提取、回退、日志、测试与客户端接入。

2026-06-15 08:13:42 625

本文探讨了优化Gemma-4-31B大语言模型推理性能的四大技术路径：1）通过SmoothQuant/AWQ等量化技术降低显存占用；2）采用PagedAttention优化KV缓存管理；3）利用MQA/GQA架构设计减少访存开销；4）借助vLLM/TGI等推理引擎实现算子融合。这些方法可有效解决Decoder阶段的带宽瓶颈问题，在保持模型精度的同时显著提升推理速度与吞吐量，为有限硬件资源下的高效部署提供系统化解决方案。

2026-06-14 12:02:47 376

原创 MiniMax M3开源：稀疏注意力架构重塑长上下文游戏规则

MiniMax M3采用自研MSA稀疏注意力架构，在100万上下文下计算量仅为上代1/20，Prefill提速超9倍、Decode提速超15倍。M3同时具备前沿编程能力（SWE-Bench Pro 59.0%，超越GPT-5.5）、百万级超长上下文（1M tokens）、原生多模态三项能力，是国内首个三项能力兼备的开源模型，也是目前唯一将此组合带入开放世界的开源选项。

2026-06-14 09:19:58 508

原创把本地入口接上远端算力：读懂 LM Studio 的 LM Link

LM Link 让 LM Studio 在多台设备间共享本地模型能力：本机仍用 localhost 接入，推理可转到远端 GPU，并通过端到端加密的 mesh VPN 连接。

2026-06-13 13:32:07 358

原创从“打字机”到“印刷机”：聊聊 Google 这只 4 倍速的 DiffusionGemma

Google 又发新模型了。这次不叫 Gemma 5，也不叫 Gemini 后续版本，而是一个名字有点怪的——DiffusionGemma。

2026-06-13 09:24:05 323

原创用Gemma 4和Obsidian打造本地AI第二大脑

本文介绍如何利用Google开源Gemma 4模型、Ollama部署工具和Obsidian笔记软件，搭建完全本地运行、无隐私外泄风险的AI辅助知识管理系统。通过Local REST API和MCP Tools插件，让AI能够读取和写入笔记，实现知识库问答、跨笔记整理、批量修改和写作辅助等功能。

2026-06-12 09:13:22 559

原创 Obsidian：把 Markdown 笔记做成一套可维护的本地知识库

Obsidian 是一款本地优先的 Markdown 笔记工具，核心价值在于双向链接、搜索、图谱和插件生态。它适合把零散笔记整理成可长期维护、可迁移、可自动化的个人知识库。

2026-06-11 15:05:31 244

原创 Nex-N2：别急着说它打败 GPT，先看它到底开源了什么

Nex-N2 是面向 agent 工作流的开源模型，重点在代码、工具调用和终端执行，不宜简单写成“全面击败 GPT”。本文从版本、基准、部署和适用场景做技术解读。

2026-06-11 09:16:32 420

原创 Gemma 4 12B的长上下文注意力之困

Gemma 4 12B的注意力机制在长上下文检索上存在瓶颈，NIAH测试显示高上下文长度时检索准确率下降。本文从技术角度解析其原因，并给出实际使用建议。

2026-06-10 14:33:31 1175

原创 Spring AI：把大模型接进 Spring 应用

Spring AI 把聊天模型、Embedding、向量库、RAG、工具调用和观测接入 Spring Boot。适合 Java 团队在已有工程中构建知识库问答、智能助手和受控业务操作，重点在组件边界、上下文质量、安全权限与可观测性。

2026-06-10 08:51:54 432

原创 WWDC 2026 这次讲的不是“新功能堆叠”，而是把开发链路重新理顺了

WWDC 2026 的重点不是单点新功能，而是把设计、AI 接口和 Xcode 工具链连成一条可落地的开发路径。

2026-06-09 14:26:38 576

原创 NVIDIA RTX Spark：个人电脑的重新定义

NVIDIA在COMPUTEX 2026发布RTX Spark超级芯片，这是其首款面向个人电脑的全集成处理器。芯片集成20核Grace CPU与Blackwell RTX GPU，共享128GB统一内存，AI算力达1 Petaflop，可本地运行1200亿参数大模型。黄仁勋称这将开启"PC新世代"——用户只需提问，PC即可完成工作。首批产品今年秋季上市。

2026-06-09 08:18:13 714

原创 Gemma 4 12B 面向本地的统一多模态开放模型

Google 最近发布了 Gemma 4-12B。如果只看名字，它似乎只是 Gemma 系列里又一个参数规模更新；但如果把几个关键信息放在一起看，12B 参数、文本与图像多模态输入、面向 16GB 显存级别设备的本地运行能力、Apache 2.0 许可，以及用于降低生成延迟的推理优化。

2026-06-08 08:59:19 414

原创 AI智能体与数字人：从“会做事”到“会交流”

AI智能体更像能理解目标、拆解任务并调用工具的系统；数字人更像把信息、服务和情绪表达呈现在人面前的交互界面。二者结合，重点不在“像不像人”，而在是否把事办清楚、把话说明白。

2026-06-07 14:08:48 534 1

原创在Mac上跑26B大模型：M4 Max + MLX量化推理实测

今天我们就来聊聊在Mac Studio M4 Max（32核GPU）上，使用oMLX平台部署gemma-4-26B-A4B-it-QAT-MLX-4bit模型的真实性能表现。

2026-06-07 09:04:32 525

原创 Gemma 4 12B 让AI创作更私密更高效

Google开源的Gemma 4 12B采用无编码器架构，能在16GB显存设备上本地处理视频、音频、图像和文本。本文详解其技术原理与优势，以Shortcast项目为例展示如何用它自动从长视频提取精彩片段、生成多平台定制文案，全程离线运行保护隐私，并提供硬件配置建议与部署操作步骤。

2026-06-06 15:15:05 481

原创 Gemma 4-12B 在 Apple M 全系列芯片上的 oMLX 实测表现

Gemma 4-12B在Apple M全系列芯片oMLX实测数据全览：M5 Max凭借bf16量化可达1815 tok/s预填充、58 tok/s生成速度；M4 Max稳定在450-580 tok/s；M1系列亦可运行（87-145 tok/s）。量化精度与上下文窗口是影响性能的关键变量。

2026-06-06 08:28:19 843

原创 Gemma-4-31B推理加速：量化、框架与加速技术实战

Gemma-4-31B是Google发布的开源旗舰模型，307亿参数在多项基准测试中超越参数量远超自身的闭源模型。但62GB的显存需求让大多数消费级显卡望而却步。本文聚焦31B模型的推理加速，从量化压缩、框架选型、MTP推测解码、DFlash块扩散加速四个维度给出实战方案。

2026-06-05 12:42:43 338

原创 Gemma 4 12B：谷歌把多模态智能装进笔记本电脑

谷歌发布最新Gemma 4 12B开源的多模态模型，120亿参数，16GB内存笔记本即可本地运行。它最大的技术创新是"无编码器统一架构"——直接去掉视觉和音频编码器，让文本、图像、音频统一进入语言模型主干，从而大幅降低延迟和内存占用。性能接近260亿参数的26B MoE模型，但内存占用不到一半，支持复杂推理和智能体工作流，采用Apache 2.0协议完全开源。

2026-06-05 08:28:10 885

原创 Qwen3.6-27B本地部署262K上下文：软硬件配置全解析

Qwen3.6-27B 本地部署262K上下文完整指南：270亿参数稠密架构、Gated DeltaNet注意力、vLLM推理框架配置与分级硬件方案详解。

2026-06-04 14:30:07 655

原创英伟达RTX Spark：开启个人AI计算机新纪元

英伟达在COMPUTEX 2026发布RTX Spark超级芯片，正式进军消费级PC市场。RTX Spark采用台积电3nm工艺，集成20核Grace CPU与Blackwell架构GPU（6144 CUDA核心），支持最高128GB统一内存，AI算力达1 PetaFLOP，可本地运行1200亿参数大模型。联合微软打造Windows 11 AI PC，首批产品今秋上市，宏碁、华硕、戴尔、惠普、联想、微软Surface、微星等OEM将推出搭载该芯片的笔记本电脑和迷你台式机。

2026-06-04 08:21:41 658

原创 MTP在vLLM与llama.cpp上的性能对比：Qwen3.6与Gemma4实测

Gemma 4 31B + vLLM + MTP n=5 以132.52 tok/s登顶。Qwen3.6启用MTP后从49.23提升至127.31 tok/s，加速2.59倍。本文附三种部署方案完整命令：llama.cpp部署Qwen3.6-MTP、vLLM部署Qwen3.6/Gemma4 FP8，以及Docker快速启动教程，手把手教你跑起来。

2026-06-03 15:24:01 834

原创 Qwen3.6-27B本地部署：除了生成速度，更该关注PP处理速度

本地部署 Qwen3.6-27B 后，提示词处理速度（首 token 延迟）往往比生成速度更影响体验。本文从预填充阶段的底层原理出发，深入探讨 KV Cache 与显存的关系，详解精简提示词、结构化模板、前缀缓存、推理引擎配置、投机解码、思考模式切换等九大优化方向，帮助用户在有限硬件条件下最大化提升提示词处理效率。

2026-06-03 08:26:14 1154

原创 Qwen3.6-35B Hi-Fi MTP Runtime：让35B大模型跑出近1.5倍速

Qwen3.6-35B-A3B-Hi-Fi-MTP-runtime，这个模型在A100-80GB上跑出了接近200 token每秒的生成速度，加速比达到了1.49倍。相比普通版本，这个带MTP（Multi-Token Prediction，多Token预测）加速的版本让35B参数的大模型真正进入了"快车道"。

2026-06-02 09:38:43 635

原创 Qwen3.6-27B 推理加速实践

Qwen3.6-27B 成为众多开发者和企业部署的热门选择。它支持 262K 超长上下文，并引入 Multi-Token Prediction（MTP）机制，为推理加速提供了广阔空间。能力是一方面，真正上线后，用户最关心的是：首字响应时间（TTFT）够不够快，生成速度（Tokens/s）够不够高。想要提升这些指标，重点在于提升单位显存和算力的利用率。

2026-06-02 09:31:45 406

原创 Dify 1.14.2 本地部署完整指南：从环境准备到服务启动

Dify 是一款开源的大语言模型应用开发平台，它将开发者从复杂的 AI 应用底层实现中解放出来，通过可视化编排工具即可快速构建聊天机器人、知识库问答、智能体 Agent 等应用。本次我们以最新 Dify 1.14.2 版本为例，详细演示如何在 Windows 系统中完成本地化部署。

2026-06-01 09:40:07 729

原创 llama.cpp本地部署Qwen3.6-27B

本文聊聊怎么用llama.cpp把Qwen3.6-27B跑在消费级硬件上，包括从环境搭建到编译优化、从模型量化到服务部署的全流程，说清楚能跑成什么样，也会提到一些需要注意的坑。

2026-06-01 08:49:16 1141

原创基于Qwen3.5-9B与YOLOv5的安全帽检测系统实践

在建筑施工、矿山作业、工厂生产等场景中，安全帽是保护工人头部免受伤害的最后一道屏障。传统的安全监管依赖人工巡检，不仅效率有限，还存在盲区和漏检风险。近年来，随着深度学习技术的成熟，基于计算机视觉的自动化安全帽检测逐渐成为行业趋势。

2026-05-31 11:46:35 472

原创 Qwen3.6-27B 本地部署三大工具：Ollama、LM Studio、llama.cpp 谁更快？

阿里开源的 Qwen3.6-27B ，很多人想在本地跑起来。Ollama、LM Studio、llama.cpp 三个工具怎么选？

2026-05-31 10:25:31 810

原创 Qwen3.5-9B在安全生产安全帽检测中的应用

在工业生产现场，安全帽是保护工人生命安全的第一道防线。传统依靠人工巡检的方式效率有限，且难以做到全天候无死角的实时监控。随着人工智能技术的发展，基于深度学习的安全帽检测系统正在改变这一局面。

2026-05-30 09:11:00 498

原创从“几何缩微“到“时间缩微“ 华为韬定律开启芯片演进新赛道

2026年5月25日，在上海举行的国际电路与系统研讨会（ISCAS 2026）上，华为公司董事、半导体业务部总裁何庭波发表主旨演讲，正式发布半导体领域新定律——韬（τ）定律。这是中国在全球半导体领域首次提出指导产业发展的新原则，标志着华为在芯片技术路线上另辟蹊径，为后摩尔时代半导体演进提供了全新方向。

2026-05-29 09:18:57 632

原创知识图谱如何成为临床辅助决策的“超级外挂“

知识图谱作为一种能够将海量医学知识结构化、关联化的技术，正在悄然改变临床诊断的游戏规则。它不是要取代医生，而是给医生配备了一个永远不会疲倦、永远不会遗漏最新指南的"超级外挂"。

2026-05-28 23:18:56 381

原创 Mac Studio 部署 Qwen3.6-27B omlx & dflash 深度评测

本地部署大语言模型一直是开发者和技术爱好者关注的焦点。当你在 Apple Silicon Mac 上运行 27B 参数级别的模型时，内存瓶颈往往是最大的挑战。今天我们带来一期硬核实测：Mac Studio M4 Max（36GB 统一内存）搭配 omlx 推理框架和 dflash 内存优化技术，部署 Qwen3.6-27B-4bit（15.7GB）的完整性能报告。

2026-05-28 09:47:06 779

原创微调Gemma 4 E4B打造教育领域专属AI助手

Google在2026年4月发布的Gemma 4系列模型，其中E4B版本凭借4.5B有效参数、128K上下文窗口，以及对文本、图像、音频的多模态支持，成为教育场景本地部署的务实选择。MMLU Pro 69.4%的得分和AIME 2026数学竞赛42.5%的通过率，说明这个"小"模型在推理能力上并不含糊。教育领域的AI应用有个特点：既要懂知识，又要会引导。通用大模型能解题，但往往直接给答案，缺少启发式教学的互动感。通过微调，我们可以让模型学会"苏格拉底式提问"——不是告诉学生答案，而是引导他们自己发现。

2026-05-25 10:20:22 1086

原创 Nvidia发布Nemotron-Labs-Diffusion三模态大模型

5月21日Nvidia发布重量级模型系列——Nemotron-Labs-Diffusion。这个名字或许听起来有些陌生，但它背后的技术却相当硬核。这是英伟达推出的全新三模态语言模型系列，包含3B、8B、14B三种参数规格，全部基于统一架构设计，能够在三种不同的解码模式之间无缝切换。

2026-05-24 11:38:16 611

原创 Gemma-4 Assistant 加速本地大模型推理

谷歌在5月为Gemma-4系列推出的MTP（Multi-Token Prediction，多词元预测）草稿模型，正是为了解决这个问题。简单来说，它通过"预测+验证"的思路，让推理速度最高提升3倍，而且完全不影响输出质量。

2026-05-23 09:38:02 798

原创知识图谱在真实业务场景落地实践

很多企业在推进数字化转型时都会遇到一个尴尬的局面：明明积累了大量数据，却很难从中提取出真正有价值的知识。业务人员需要的不是一堆原始数据表，而是能够直接指导决策的洞察。银行在做信用卡营销时，往往面临这样的困境：客户数据分散在十多个系统中，要找出"年收入30万以上、最近半年没有旅游记录、经常使用信用卡分期"的目标客群，需要数据团队折腾好几周。这种情况在企业内部非常普遍。知识图谱技术正是为了解决这类问题而生的。它不是要取代数据库，而是要在传统数据存储之上构建一层语义关联层，让机器能够像人一样理解数据之间的联系。

2026-05-22 09:31:31 1153

【Java开发环境配置】基于JDK21的多平台安装与IDE集成：Java21 环境配置实战指南

本文详细介绍了JDK 21作为Java最新LTS版本的核心特性及其在Windows和macOS系统下的安装、配置与验证方法。提供了从环境变量设置（JAVA_HOME、Path、CLASSPATH）到主流IDE（IntelliJ IDEA、Eclipse、VSCode）集成JDK 21的完整步骤，并附有多版本JDK管理方案及环境验证脚本，确保开发环境正确部署。同时针对常见配置问题给出排查指南，帮助开发者顺利完成升级与迁移。适合人群：Java开发者、软件工程师、系统管理员及对Java新特性感兴趣的技术人员，尤其适合需搭建稳定开发环境的中初级研发人员。使用场景及目标：①搭建Java 21开发环境并配置系统级参数；②在主流IDE中集成JDK 21进行项目开发；③实现多版本JDK切换与管理

2026-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

【Java开发环境配置】基于JDK21的多平台安装与IDE集成：Java21 环境配置实战指南

Spring AI 1.0零基础入门指南培训PPT

Dify+Jina Reader+LLM构建一个高效的文章内容概要生成工具（DSL）

Freemarker模板开发

Canal网络插件安装

使用Microk8s快速创建k8s集群

使用Minikube创建K8S集群

空空如也