自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 资源 (1)
  • 收藏
  • 关注

原创 双卡 4090 跑 Qwen3.6-35B-A3B:vLLM + AWQ 4bit 评测

双卡 RTX 4090 24GB 使用 vLLM 部署 Qwen3.6-35B-A3B-AWQ-4bit,测试吞吐、延迟、长上下文、推测解码和显存表现。

2026-06-18 08:46:07 589

原创 把模型压成 4 位:聊一聊 NVFP4 与支持的显卡

NVFP4 是 NVIDIA Blackwell 原生支持的 4 位浮点格式,双层缩放把 Qwen 3.5、Gemma 4 等大模型显存压到 FP16 的 1/4,精度损失<1%,需 B200/GB200/RTX 50 等 Blackwell GPU 硬件加速。

2026-06-17 09:14:27 446

原创 本地部署Qwen3.6-35B-A3B并接入联网功能

使用 Ollama 在本机跑通阿里开源的 Qwen3.6-35B-A3B,再通过 Open WebUI 接入联网搜索。

2026-06-16 09:29:19 482

原创 从零实现一个 Web 搜索 MCP 插件

本文用一个可落地的 Node.js 示例,讲清如何实现 Web 搜索 MCP 插件:声明工具、处理stdio/SSE、搜索解析、网页正文提取、回退、日志、测试与客户端接入。

2026-06-15 08:13:42 625

原创 Gemma-4-31B 推理加速的技术路径

本文探讨了优化Gemma-4-31B大语言模型推理性能的四大技术路径:1)通过SmoothQuant/AWQ等量化技术降低显存占用;2)采用PagedAttention优化KV缓存管理;3)利用MQA/GQA架构设计减少访存开销;4)借助vLLM/TGI等推理引擎实现算子融合。这些方法可有效解决Decoder阶段的带宽瓶颈问题,在保持模型精度的同时显著提升推理速度与吞吐量,为有限硬件资源下的高效部署提供系统化解决方案。

2026-06-14 12:02:47 376

原创 MiniMax M3开源:稀疏注意力架构重塑长上下文游戏规则

MiniMax M3采用自研MSA稀疏注意力架构,在100万上下文下计算量仅为上代1/20,Prefill提速超9倍、Decode提速超15倍。M3同时具备前沿编程能力(SWE-Bench Pro 59.0%,超越GPT-5.5)、百万级超长上下文(1M tokens)、原生多模态三项能力,是国内首个三项能力兼备的开源模型,也是目前唯一将此组合带入开放世界的开源选项。

2026-06-14 09:19:58 508

原创 把本地入口接上远端算力:读懂 LM Studio 的 LM Link

LM Link 让 LM Studio 在多台设备间共享本地模型能力:本机仍用 localhost 接入,推理可转到远端 GPU,并通过端到端加密的 mesh VPN 连接。

2026-06-13 13:32:07 358

原创 从“打字机”到“印刷机”:聊聊 Google 这只 4 倍速的 DiffusionGemma

Google 又发新模型了。这次不叫 Gemma 5,也不叫 Gemini 后续版本,而是一个名字有点怪的——DiffusionGemma。

2026-06-13 09:24:05 323

原创 用Gemma 4和Obsidian打造本地AI第二大脑

本文介绍如何利用Google开源Gemma 4模型、Ollama部署工具和Obsidian笔记软件,搭建完全本地运行、无隐私外泄风险的AI辅助知识管理系统。通过Local REST API和MCP Tools插件,让AI能够读取和写入笔记,实现知识库问答、跨笔记整理、批量修改和写作辅助等功能。

2026-06-12 09:13:22 559

原创 Obsidian:把 Markdown 笔记做成一套可维护的本地知识库

Obsidian 是一款本地优先的 Markdown 笔记工具,核心价值在于双向链接、搜索、图谱和插件生态。它适合把零散笔记整理成可长期维护、可迁移、可自动化的个人知识库。

2026-06-11 15:05:31 244

原创 Nex-N2:别急着说它打败 GPT,先看它到底开源了什么

Nex-N2 是面向 agent 工作流的开源模型,重点在代码、工具调用和终端执行,不宜简单写成“全面击败 GPT”。本文从版本、基准、部署和适用场景做技术解读。

2026-06-11 09:16:32 420

原创 Gemma 4 12B的长上下文注意力之困

Gemma 4 12B的注意力机制在长上下文检索上存在瓶颈,NIAH测试显示高上下文长度时检索准确率下降。本文从技术角度解析其原因,并给出实际使用建议。

2026-06-10 14:33:31 1175

原创 Spring AI:把大模型接进 Spring 应用

Spring AI 把聊天模型、Embedding、向量库、RAG、工具调用和观测接入 Spring Boot。适合 Java 团队在已有工程中构建知识库问答、智能助手和受控业务操作,重点在组件边界、上下文质量、安全权限与可观测性。

2026-06-10 08:51:54 432

原创 WWDC 2026 这次讲的不是“新功能堆叠”,而是把开发链路重新理顺了

WWDC 2026 的重点不是单点新功能,而是把设计、AI 接口和 Xcode 工具链连成一条可落地的开发路径。

2026-06-09 14:26:38 576

原创 NVIDIA RTX Spark:个人电脑的重新定义

NVIDIA在COMPUTEX 2026发布RTX Spark超级芯片,这是其首款面向个人电脑的全集成处理器。芯片集成20核Grace CPU与Blackwell RTX GPU,共享128GB统一内存,AI算力达1 Petaflop,可本地运行1200亿参数大模型。黄仁勋称这将开启"PC新世代"——用户只需提问,PC即可完成工作。首批产品今年秋季上市。

2026-06-09 08:18:13 714

原创 Gemma 4 12B 面向本地的统一多模态开放模型

Google 最近发布了 Gemma 4-12B。如果只看名字,它似乎只是 Gemma 系列里又一个参数规模更新;但如果把几个关键信息放在一起看,12B 参数、文本与图像多模态输入、面向 16GB 显存级别设备的本地运行能力、Apache 2.0 许可,以及用于降低生成延迟的推理优化。

2026-06-08 08:59:19 414

原创 AI智能体与数字人:从“会做事”到“会交流”

AI智能体更像能理解目标、拆解任务并调用工具的系统;数字人更像把信息、服务和情绪表达呈现在人面前的交互界面。二者结合,重点不在“像不像人”,而在是否把事办清楚、把话说明白。

2026-06-07 14:08:48 534 1

原创 在Mac上跑26B大模型:M4 Max + MLX量化推理实测

今天我们就来聊聊在Mac Studio M4 Max(32核GPU)上,使用oMLX平台部署gemma-4-26B-A4B-it-QAT-MLX-4bit模型的真实性能表现。

2026-06-07 09:04:32 525

原创 Gemma 4 12B 让AI创作更私密更高效

Google开源的Gemma 4 12B采用无编码器架构,能在16GB显存设备上本地处理视频、音频、图像和文本。本文详解其技术原理与优势,以Shortcast项目为例展示如何用它自动从长视频提取精彩片段、生成多平台定制文案,全程离线运行保护隐私,并提供硬件配置建议与部署操作步骤。

2026-06-06 15:15:05 481

原创 Gemma 4-12B 在 Apple M 全系列芯片上的 oMLX 实测表现

Gemma 4-12B在Apple M全系列芯片oMLX实测数据全览:M5 Max凭借bf16量化可达1815 tok/s预填充、58 tok/s生成速度;M4 Max稳定在450-580 tok/s;M1系列亦可运行(87-145 tok/s)。量化精度与上下文窗口是影响性能的关键变量。

2026-06-06 08:28:19 843

原创 Gemma-4-31B推理加速:量化、框架与加速技术实战

Gemma-4-31B是Google发布的开源旗舰模型,307亿参数在多项基准测试中超越参数量远超自身的闭源模型。但62GB的显存需求让大多数消费级显卡望而却步。本文聚焦31B模型的推理加速,从量化压缩、框架选型、MTP推测解码、DFlash块扩散加速四个维度给出实战方案。

2026-06-05 12:42:43 338

原创 Gemma 4 12B:谷歌把多模态智能装进笔记本电脑

谷歌发布最新Gemma 4 12B开源的多模态模型,120亿参数,16GB内存笔记本即可本地运行。它最大的技术创新是"无编码器统一架构"——直接去掉视觉和音频编码器,让文本、图像、音频统一进入语言模型主干,从而大幅降低延迟和内存占用。性能接近260亿参数的26B MoE模型,但内存占用不到一半,支持复杂推理和智能体工作流,采用Apache 2.0协议完全开源。

2026-06-05 08:28:10 885

原创 Qwen3.6-27B本地部署262K上下文:软硬件配置全解析

Qwen3.6-27B 本地部署262K上下文完整指南:270亿参数稠密架构、Gated DeltaNet注意力、vLLM推理框架配置与分级硬件方案详解。

2026-06-04 14:30:07 655

原创 英伟达RTX Spark:开启个人AI计算机新纪元

英伟达在COMPUTEX 2026发布RTX Spark超级芯片,正式进军消费级PC市场。RTX Spark采用台积电3nm工艺,集成20核Grace CPU与Blackwell架构GPU(6144 CUDA核心),支持最高128GB统一内存,AI算力达1 PetaFLOP,可本地运行1200亿参数大模型。联合微软打造Windows 11 AI PC,首批产品今秋上市,宏碁、华硕、戴尔、惠普、联想、微软Surface、微星等OEM将推出搭载该芯片的笔记本电脑和迷你台式机。

2026-06-04 08:21:41 658

原创 MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测

Gemma 4 31B + vLLM + MTP n=5 以132.52 tok/s登顶。Qwen3.6启用MTP后从49.23提升至127.31 tok/s,加速2.59倍。本文附三种部署方案完整命令:llama.cpp部署Qwen3.6-MTP、vLLM部署Qwen3.6/Gemma4 FP8,以及Docker快速启动教程,手把手教你跑起来。

2026-06-03 15:24:01 834

原创 Qwen3.6-27B本地部署:除了生成速度,更该关注PP处理速度

本地部署 Qwen3.6-27B 后,提示词处理速度(首 token 延迟)往往比生成速度更影响体验。本文从预填充阶段的底层原理出发,深入探讨 KV Cache 与显存的关系,详解精简提示词、结构化模板、前缀缓存、推理引擎配置、投机解码、思考模式切换等九大优化方向,帮助用户在有限硬件条件下最大化提升提示词处理效率。

2026-06-03 08:26:14 1154

原创 Qwen3.6-35B Hi-Fi MTP Runtime:让35B大模型跑出近1.5倍速

Qwen3.6-35B-A3B-Hi-Fi-MTP-runtime,这个模型在A100-80GB上跑出了接近200 token每秒的生成速度,加速比达到了1.49倍。相比普通版本,这个带MTP(Multi-Token Prediction,多Token预测)加速的版本让35B参数的大模型真正进入了"快车道"。

2026-06-02 09:38:43 635

原创 Qwen3.6-27B 推理加速实践

Qwen3.6-27B 成为众多开发者和企业部署的热门选择。它支持 262K 超长上下文,并引入 Multi-Token Prediction(MTP)机制,为推理加速提供了广阔空间。能力是一方面,真正上线后,用户最关心的是:首字响应时间(TTFT)够不够快,生成速度(Tokens/s)够不够高。想要提升这些指标,重点在于提升单位显存和算力的利用率。

2026-06-02 09:31:45 406

原创 Dify 1.14.2 本地部署完整指南:从环境准备到服务启动

Dify 是一款开源的大语言模型应用开发平台,它将开发者从复杂的 AI 应用底层实现中解放出来,通过可视化编排工具即可快速构建聊天机器人、知识库问答、智能体 Agent 等应用。本次我们以最新 Dify 1.14.2 版本为例,详细演示如何在 Windows 系统中完成本地化部署。

2026-06-01 09:40:07 729

原创 llama.cpp本地部署Qwen3.6-27B

本文聊聊怎么用llama.cpp把Qwen3.6-27B跑在消费级硬件上,包括从环境搭建到编译优化、从模型量化到服务部署的全流程,说清楚能跑成什么样,也会提到一些需要注意的坑。

2026-06-01 08:49:16 1141

原创 基于Qwen3.5-9B与YOLOv5的安全帽检测系统实践

在建筑施工、矿山作业、工厂生产等场景中,安全帽是保护工人头部免受伤害的最后一道屏障。传统的安全监管依赖人工巡检,不仅效率有限,还存在盲区和漏检风险。近年来,随着深度学习技术的成熟,基于计算机视觉的自动化安全帽检测逐渐成为行业趋势。

2026-05-31 11:46:35 472

原创 Qwen3.6-27B 本地部署三大工具:Ollama、LM Studio、llama.cpp 谁更快?

阿里开源的 Qwen3.6-27B ,很多人想在本地跑起来。Ollama、LM Studio、llama.cpp 三个工具怎么选?

2026-05-31 10:25:31 810

原创 Qwen3.5-9B在安全生产安全帽检测中的应用

在工业生产现场,安全帽是保护工人生命安全的第一道防线。传统依靠人工巡检的方式效率有限,且难以做到全天候无死角的实时监控。随着人工智能技术的发展,基于深度学习的安全帽检测系统正在改变这一局面。

2026-05-30 09:11:00 498

原创 从“几何缩微“到“时间缩微“ 华为韬定律开启芯片演进新赛道

2026年5月25日,在上海举行的国际电路与系统研讨会(ISCAS 2026)上,华为公司董事、半导体业务部总裁何庭波发表主旨演讲,正式发布半导体领域新定律——韬(τ)定律。这是中国在全球半导体领域首次提出指导产业发展的新原则,标志着华为在芯片技术路线上另辟蹊径,为后摩尔时代半导体演进提供了全新方向。

2026-05-29 09:18:57 632

原创 知识图谱如何成为临床辅助决策的“超级外挂“

知识图谱作为一种能够将海量医学知识结构化、关联化的技术,正在悄然改变临床诊断的游戏规则。它不是要取代医生,而是给医生配备了一个永远不会疲倦、永远不会遗漏最新指南的"超级外挂"。

2026-05-28 23:18:56 381

原创 Mac Studio 部署 Qwen3.6-27B omlx & dflash 深度评测

本地部署大语言模型一直是开发者和技术爱好者关注的焦点。当你在 Apple Silicon Mac 上运行 27B 参数级别的模型时,内存瓶颈往往是最大的挑战。今天我们带来一期硬核实测:Mac Studio M4 Max(36GB 统一内存)搭配 omlx 推理框架和 dflash 内存优化技术,部署 Qwen3.6-27B-4bit(15.7GB)的完整性能报告。

2026-05-28 09:47:06 779

原创 微调Gemma 4 E4B打造教育领域专属AI助手

Google在2026年4月发布的Gemma 4系列模型,其中E4B版本凭借4.5B有效参数、128K上下文窗口,以及对文本、图像、音频的多模态支持,成为教育场景本地部署的务实选择。MMLU Pro 69.4%的得分和AIME 2026数学竞赛42.5%的通过率,说明这个"小"模型在推理能力上并不含糊。教育领域的AI应用有个特点:既要懂知识,又要会引导。通用大模型能解题,但往往直接给答案,缺少启发式教学的互动感。通过微调,我们可以让模型学会"苏格拉底式提问"——不是告诉学生答案,而是引导他们自己发现。

2026-05-25 10:20:22 1086

原创 Nvidia发布Nemotron-Labs-Diffusion三模态大模型

5月21日Nvidia发布重量级模型系列——Nemotron-Labs-Diffusion。这个名字或许听起来有些陌生,但它背后的技术却相当硬核。这是英伟达推出的全新三模态语言模型系列,包含3B、8B、14B三种参数规格,全部基于统一架构设计,能够在三种不同的解码模式之间无缝切换。

2026-05-24 11:38:16 611

原创 Gemma-4 Assistant 加速本地大模型推理

谷歌在5月为Gemma-4系列推出的MTP(Multi-Token Prediction,多词元预测)草稿模型,正是为了解决这个问题。简单来说,它通过"预测+验证"的思路,让推理速度最高提升3倍,而且完全不影响输出质量。

2026-05-23 09:38:02 798

原创 知识图谱在真实业务场景落地实践

很多企业在推进数字化转型时都会遇到一个尴尬的局面:明明积累了大量数据,却很难从中提取出真正有价值的知识。业务人员需要的不是一堆原始数据表,而是能够直接指导决策的洞察。银行在做信用卡营销时,往往面临这样的困境:客户数据分散在十多个系统中,要找出"年收入30万以上、最近半年没有旅游记录、经常使用信用卡分期"的目标客群,需要数据团队折腾好几周。这种情况在企业内部非常普遍。知识图谱技术正是为了解决这类问题而生的。它不是要取代数据库,而是要在传统数据存储之上构建一层语义关联层,让机器能够像人一样理解数据之间的联系。

2026-05-22 09:31:31 1153

【Java开发环境配置】基于JDK21的多平台安装与IDE集成:Java21 环境配置实战指南

本文详细介绍了JDK 21作为Java最新LTS版本的核心特性及其在Windows和macOS系统下的安装、配置与验证方法。提供了从环境变量设置(JAVA_HOME、Path、CLASSPATH)到主流IDE(IntelliJ IDEA、Eclipse、VSCode)集成JDK 21的完整步骤,并附有多版本JDK管理方案及环境验证脚本,确保开发环境正确部署。同时针对常见配置问题给出排查指南,帮助开发者顺利完成升级与迁移。 适合人群:Java开发者、软件工程师、系统管理员及对Java新特性感兴趣的技术人员,尤其适合需搭建稳定开发环境的中初级研发人员。 使用场景及目标:①搭建Java 21开发环境并配置系统级参数;②在主流IDE中集成JDK 21进行项目开发;③实现多版本JDK切换与管理

2026-03-01

Spring AI 1.0零基础入门指南培训PPT

面向Java开发者的Spring AI 1.0零基础入门指南培训PPT

2026-03-01

Dify+Jina Reader+LLM构建一个高效的文章内容概要生成工具(DSL)

利用Dify、Jina Reader和LLM(大语言模型)构建一个高效的文章内容概要生成工具,让你在几分钟内从网页链接中提取并总结关键信息,特别适合内容创作者、研究者和新闻爱好者。

2026-02-28

Freemarker模板开发

Freemarker 模板开发 Freemarker 入门

2016-12-01

Canal网络插件安装

Canal网络插件安装

2023-01-26

使用Microk8s快速创建k8s集群

使用Microk8s快速创建k8s集群

2023-01-26

使用Minikube创建K8S集群

使用Minikube创建K8S集群

2023-01-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除