自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(128)
  • 收藏
  • 关注

原创 Agentic-GraphRAG 架构实践:较 GraphRAG 成本降低90%

摘要:本文提出了一种名为Agentic-GraphRAG的新型架构,旨在解决垂直领域RAG系统面临的碎片化信息孤岛和上下文中毒问题。该架构结合Agent决策能力、知识图谱关联推理和向量检索语义匹配,通过OCR文档解析(MinerU/PaddleOCR-VL)和结构化信息抽取(LangExtract)构建高质量数据底座,实现了低成本高性能的智能问答系统。文章详细介绍了三大检索工具协同工作流程,并提供了PDF解析和知识提取的实战代码示例。(149字)

2025-12-25 19:09:40 975

原创 Agent Memory 是什么?一文讲清它与 RAG、上下文工程、LLM Memory 的本质区别

通过新一代AI智能体记忆系统的核心架构。

2025-12-23 18:15:53 887

原创 LanChain1.0实战:MinerU+HITL 打造字符级定位文档审核 Agent(附源码)

AI文档审核系统:99.97%成本降低,10倍效率提升 最新研发的智能文档审核系统基于LangChain 1.1和DeepSeek-v3.2技术,实现革命性突破:审核时间从数天缩短至5秒,准确率超越人类专家,成本降低99.97%。系统具备四大核心功能: 多格式文档智能解析(支持PDF/Word等10+格式) 高精度定位审核与问题高亮 人机协作审核模式 自定义规则引擎 技术架构采用三层Agent设计,结合MinerU实现精准文档解析和坐标定位,已在法务、财务等行业验证成功,最高提升效率15倍。系统支持结构化输

2025-12-22 15:41:34 922

原创 从基础到多模态:Llama-Index RAG 七大企业级落地场景实战

Llama-Index实战演示企业级RAG检索的七大场景,解决检索准确性和多模态解析两大难题。提供完整源码

2025-12-18 16:39:40 627

原创 Llama-Index RAG 进阶:小索引大窗口 + 混合检索 + 智能路由实战指南

基础RAG在真实业务场景中面临三大核心瓶颈:精度与上下文的矛盾、语义检索与字面匹配的差异、以及缺乏对查询意图的适应性。针对这些问题,提出了三种进阶策略:小索引大窗口检索(提高检索精度同时保证上下文完整性)、混合检索(结合语义与关键词搜索优势)和智能路由(动态适配查询意图)。通过Llama-Index框架的实战代码演示,特别是针对中文环境的关键优化,展示了如何构建高精度的企业级RAG系统。

2025-12-17 17:42:47 1059 1

原创 AI 手机技术拆解:豆包手机 vs AutoGLM,两条“AI 手机”技术路线深度拆解

豆包手机与AutoGLM代表了两种不同的AI手机技术路线:前者通过系统级深度集成,直接读取GPU渲染缓存并注入输入事件,拥有超高权限但面临平台封杀;后者采用外部ADB控制方案,依赖标准调试接口,虽权限受限但更开放合规。两者的核心差异在于部署位置(系统内生vs云端控制)、权限边界(私有特权vs公共接口)以及对移动互联网商业模式的冲击程度。豆包手机的高效自动化直接挑战了以注意力经济为基础的现有生态,而AutoGLM则更倾向于构建可管控的基础设施。技术路线的选择反映了对系统控制权与商业利益的不同平衡策略。

2025-12-16 11:40:18 1035

原创 用 RAG 撬开多模态检索:从文本问答到以图搜图与视频筛选

一文带你玩转RAG:从文本问答到多模态检索的工程实践多模态处理:利用CLIP等模型实现图文跨模态检索分层索引:混合使用稀疏检索(BM25)和稠密检索(向量)两阶段流程:离线建库(数据解析、智能切分、向量化)与在线问答(查询增强、混合检索、精排)应用场景:企业知识管理:合同/制度查询多模态搜索:以图搜图、视频片段检索客服系统:证据驱动的精准回答

2025-12-15 13:20:53 793

原创 Agent 工具太多导致降智?LangChain 1.1 Middleware 复现 Claude Skills 动态工具加载

LangChain 1.1实现Claude Skills的动态工具过滤功能,解决传统AI Agent在处理大量工具时面临的上下文窗口耗尽和模型"选择困难"问题。通过分析Claude Skills的核心思想——运行时按需加载工具,文章详细展示了如何利用LangChain 1.1新增的Middleware API实现动态工具过滤、状态管理和请求修改。相比早期版本需要复杂hack的实现方式,新版本提供了官方支持的优雅解决方案,能显著降低Token消耗,提升模型在复杂任务中的推

2025-12-12 13:14:35 1142

原创 eBPF 劫持 CUDA Driver API 实现 GPU 细粒度虚拟化详解

eBPF技术的GPU细粒度虚拟化方案,通过在内核层无侵入地劫持CUDA Driver API,实现对GPU资源的动态切分与隔离。相比传统虚拟化技术,该方案具有透明性、安全性和高性能优势。文章详细分析了CUDA驱动模型、eBPF Uprobes机制,并设计了包含控制面和数据面的云原生系统架构,通过拦截关键API实现显存虚拟化和算力隔离。该方案能显著提升GPU资源利用率,解决云原生场景下的算力碎片化问题。

2025-12-11 17:52:30 778

原创 大模型入门到工业级落地:15 个工业项目案例助力50W年薪

2025年迎来Agent(智能体)爆发元年,大模型技术从聊天工具升级为能自主执行任务的产业级生产力。本文提供从入门到落地的实践指南,重点解析企业最需求的四大AI应用场景:对话增强(Agentic RAG)、多模态内容生成、AI编程/数据分析及垂直行业解决方案。技术人需掌握模型选型(如DeepSeek-V3.2)、知识增强(RAG)、工具调用(Function Calling)和流程编排(LangGraph)四大核心能力。附带15个工业级项目案例(含PPT生成、数据分析Agent等)

2025-12-10 15:03:31 1138

原创 LangChain 1.0 最新实战:DeepAgents+DeepSeek-v3.2构建深度研究智能体!

曾经火爆一时、激活码炒到天价的 Manus,现在只需要几十行代码就能在你的电脑上复刻,你敢信吗?没错,这就是 LangChain 1.0 最新架构下的 DeepAgents 框架能带来的降维打击。伴随着国产之光 DeepSeek-v3.2 模型的发布,咱们@木羽Cheny 老师第一时间深度评测了它结合 DeepAgents 搭建复杂智能体系统的表现。结果非常惊喜:响应极快、逻辑缜密,而且非常省钱,完全具备了企业级落地的能力!

2025-12-10 11:40:52 872

原创 AI 也是脸盲?一文看懂 YOLO 和大模型怎么看世界

本文对比了AI视觉领域的两种主流技术:YOLO系列和视觉大模型(VLM)。YOLO作为快速检测模型,在速度和效率上表现突出,但局限于训练数据;新版YOLO-World已拓展到开放词汇识别。VLM则具备更强的语义理解能力,但计算成本高、响应慢。文章分析了它们各自的应用场景:YOLO适用于实时性要求高的场景如自动驾驶,VLM则更适合需要深度理解的智能交互任务。最后介绍了相关AI学习课程,帮助读者掌握这些前沿技术。

2025-12-09 16:03:43 956

原创 LangChain + DeepResearch 实战 :从 0 到 1 构建深度研究智能体(附源码)

本文基于 DeepSeek-v3.2 + LangChain实现支持 DeepResearch 的智能体。通过接入 Tavily 搜索工具、定义系统提示词及任务分解流程,实现从信息收集到结构化输出的自动化。项目代码开源,提供完整环境配置与 API 接入指南,助力开发者快速构建高效“数字员工”。

2025-12-08 11:42:43 1130

原创 国产最强 DeepSeek-V3.2 Agent 开发实战系列(一)

本文介绍了DeepSeek-V3.2大模型的特性、使用方法及与LangChain的集成。作为国内领先的AI模型,DeepSeek-V3.2在数学、编程和Agent性能方面表现优异,并已开源模型权重。文章提供了快速上手指南,包括API配置、基础调用示例和Function Calling流程。通过代码示例展示了如何实现天气查询功能,并演示了工具调用的完整流程。模型支持LangChain集成,开发者可通过相关资源获取更多实战内容。

2025-12-04 14:41:20 596

原创 建议收藏丨Nano Banana Pro 国内免费体验+API接入指南

工具再好,用起来才是王道。无论你是想用网页版白嫖几张图,还是想用 API 开发自己的应用,上面这些路径应该足够帮你省下这笔“梯子费”和“办卡费”了。免费领取👇 觉得有用,点个“赞”防走失吧~

2025-12-03 18:20:28 3769

原创 用 Verl 让强化学习飞起来:单卡让 1.5B 模型 数学推理提高 80%(保姆级流程)

Verl框架通过优化强化学习流程实现高效训练,在单卡A800上1.5B模型GSM8K准确率从49%提升至80%。其核心创新包括:采用vLLM加速推理(提速4-6倍)、GRPO算法省去Critic模型(节省30-40%显存)、三模型协作架构。教程涵盖从环境配置到评估部署全流程,重点解决推理慢、显存紧张、调度复杂等痛点。关键注意事项包括:保持训练/验证prompt一致性、合理设置批次参数、准确提取数学答案等。完整实现代码可通过赋范空间获取,适用于快速提升模型数学推理能力。

2025-12-03 14:25:51 744

原创 大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?

大语言模型训练分为预训练、监督微调(SFT)和强化学习(RL)三阶段。SFT虽能让模型掌握基本技能,但存在三大局限:只能模仿无法超越训练数据、标注成本高覆盖面窄、难以定义"优质回答"的软标准。RL通过"试错-反馈"机制,让模型探索更优解,将标注任务从创作转为评判,效率提升10倍,并能学习人类难以言传的偏好。然而大模型RL面临模型体积大、训练速度慢、显存需求高和奖励设计难等挑战。实践证明

2025-12-02 18:54:46 888

原创 仅存活 15 天?DeepSeek 限量版模型 Speciale 上线,测完我沉默了...

DeepSeek 再次刷新纪录!V3.2 正式版与实验性 Speciale 模型同步上线。不仅在编程、数学和 Agent 领域追平 GPT-5 和 Gemini 3.0,更通过“解除思考链限制”探索 AI 推理极限。本文带你拆解背后的 DSA、GRPO 黑科技!大家好,我是me现在的 AI 圈,简直是一天一个样。前两天我们还在惊叹 Gemini 3.0 的跨时代能力,后脚咱们国产的“卷王” DeepSeek 就带着它的新大招杀回来了。

2025-12-02 17:42:16 897

原创 DeepSeek V3.2重磅发布:性能比肩gemini 3.0 Pro,价格不足五分之一!打破垄断,开源界注入强心剂!

DeepSeek V3.2 正式版发布,性能全面对标全球顶尖模型Gemini 3.0 Pro,在数学、编程等领域实现革命性突破。该模型采用创新的DSA注意力机制和GRPU训练框架,显著降低50%以上推理成本,价格仅为竞品的1/4到1/5。其编程能力达到GPT-5水平,支持千行代码生成;Agent能力引入"边思考边调用工具"模式,性能差距缩小至5%以内。同步开源的实验模型V3.2 Speciale专注于复杂问题解决,具备MO金牌级数学能力。作为完全开源的高性价比国产模型,DeepSeek

2025-12-02 11:44:50 1028

原创 成本仅8毛,我用Nano Banana Pro搭了一个「无网络限制」的文生图设计系统

先给不熟悉的朋友对齐一下Nano Banana Pro,其实就是 Gemini 3 Pro Image Preview 的代号。别被名字忽悠了,这玩意儿不仅不“Nano”,反而在多模态理解上强得离谱。为什么我要带大家做这个项目?原生多模态理解: 相比于 SD 需要极度精准的 Prompt,Gemini 对自然语言的理解是“降维打击”级别的。成本红利: 接入 OpenRouter 后,它的费率极低。

2025-12-01 18:33:14 1287

原创 LangChain 1.0 搭建票据审核Agent(附源码)

本篇将手把手带你用 LangChain 1.0 联合 Qwen3-VL 多模态模型,搭建一个能自动“看懂发票”、输出结构化 JSON 的票据识别 Agent。进一步,我们还会基于多 Agent 协作,实现对发票完整性、格式、金额计算和业务规则的全流程智能校验,并给出可落地的工程代码示例。

2025-12-01 14:51:12 793

原创 LangChain1.0 搭建法务合同审核 Agent(附源码)

本文介绍了基于LangChain 1.0的OCR+RAG技术搭建法务合同审核Agent的方案。针对合同、标书等长文档审核场景,对比分析了OCR+RAG与视觉语言模型(VLM)的技术路线,指出OCR方案在成本、精度定位、表格处理等方面的优势。核心实现了PDF解析与坐标提取功能,通过MinerU API获取文本内容及其精确坐标,并采用智能切分策略保留坐标信息,为后续合同条款审核提供可追溯的定位支持。该系统可精准识别文档问题并标注具体位置,适合法务场景的严格格式要求。

2025-12-01 13:21:44 1124

原创 霸榜第一!DeepSeekMath-V2 首创自验证数学推理训练详解!

本文深度拆解DeepSeekMath-V2背后的核心技术——自验证数学推理训练,看它如何以1/1000的算力通过“左右互搏”实现数学能力的指数级进化。

2025-11-28 11:52:19 1173 2

原创 LiteLLM + OpenRouter 打通 Nano Banana Pro:从 0 到 1 搭建私有文生图设计系统(附源码)

本文介绍了一套低成本、国内直连的实战方案,利用 LiteLLM + OpenRouter 技术组合,打通了 Google 最新的 Nano Banana Pro (Gemini 3 Pro) 图像生成模型。文章旨在指导开发者从零开始,搭建一个完全私有化部署的 AI 设计系统,实现高质量的文生图、图生图及多图编辑功能,并附赠完整的全栈源代码供参考学习。

2025-11-27 16:03:35 1041 1

原创 文档审核 Agent 技术揭秘:让AI成为你的专业审核员

合同审核耗时数小时,AI只需几秒钟,成本降低99.97%!文档审核类Agent正在颠覆法务、财务等专业领域的工作方式。 本文深度拆解大模型Agent如何实现"自主推理+工具调用+知识检索",让你彻底搞懂从票据到合同的智能审核原理。

2025-11-26 18:22:52 1183

原创 白嫖 NanoBananaPro:国内免费体验与 API 接入全指南

本文整理了在国内无需翻墙即可在线免费体验 NanoBananaPro 的多个网站,并介绍了通过 OpenRouter 与 GRS AI Dashboard 两个支持国内支付的中转平台 调用NanoBananaPro API示例

2025-11-25 14:27:59 5237

原创 不会编程也能做AI产品:Coze多模态应用从0到1实战

不会编程也能做出真正能落地的 AI 产品——这篇文章将带你从 0 到 1,实战构建一个可执行、可交付的 Coze 多模态应用。通过真实案例与完整实践流程,你将看到一个人如何用 Coze 做出过去需要 5 人团队才能完成的 AI 自动化能力。

2025-11-24 15:52:30 1069

原创 用 Coze 10 分钟构建一个多模态视频应用

Coze是一个多模态AI应用开发平台,整合了模型能力、工作流、Agent和API工具,支持零代码构建智能应用。相比Dify和n8n,Coze特别适合多模态内容生成场景,如图文转视频、智能创作等。平台提供可视化工作流编排,支持企业系统对接和流程审计,通过模板生态降低开发门槛。文章通过注册演示、工作流构建和视频案例,展示了如何快速搭建视频生成应用,实现从创意到成品的自动化流程。

2025-11-24 14:36:33 732

原创 Nano Banana Pro 零门槛上手+7类核心玩法教程

Nano Banana Pro正式发布!零门槛上手与7类核心玩法+提示词介绍详解,快速上手AI生图旗舰模型!

2025-11-22 13:32:55 1262

原创 Gemini 3.0深度解读+上手指南!一句话复刻操作系统,Agentic Coding 实战全记录

Gemini 3.0 正式发布!在编程、推理、对话、视觉等核心维度全面碾压 GPT-5.1 和 Claude-4.5,被谷歌称为“AI 梦工厂”。这一代不仅性能拉满,还带来了 Antigravity Agent 优先 IDE、Agentic Coding 主动代理模式,甚至能用一句 Prompt“复刻”一个类 macOS WebOS。本文从模型能力、实测案例到上手路径,一文带你看懂 Gemini 3.0 为什么配得上“新王登基”。

2025-11-19 18:46:48 1737

原创 强化学习(RL)实战:DPO RL 大幅提升 Agent Function-Calling 能力

本文介绍了使用强化学习中的DPO算法来提升AI Agent工具调用能力的实战方法。主要内容包括:1)记录Agent调用过程获取原始数据;2)通过AutoToolDPO自动生成DPO微调数据集,解决人工标注成本高的问题;3)使用LLaMA Factory进行模型微调。项目提供完整代码,可高效生成符合DPO格式的训练数据,显著提升Agent在工具选择、参数拼接和多轮对话中的准确性。

2025-11-19 09:00:00 1683

原创 一文搞懂 Agent、Function Calling 与强化学习

本篇系统讲解 Agent、Function Calling 与强化学习是什么、以及三者如何协同,让大模型从被动工具进化为能自主完成任务、自我学习进化的智能体。

2025-11-18 11:32:04 1070

原创 Agent RL 智能体强化学习实战(附源码)

本文介绍了基于Agent-Lightning框架的SQL-Agent强化学习实战方法。项目采用运行与训练分离的架构设计,通过LangGraph实现SQL Agent的运行逻辑,记录自然语言到SQL转换的完整轨迹。训练模块利用veRL框架和GRPO算法,根据执行结果自动优化模型策略,形成"执行-反馈-优化"的闭环训练流程。实验在H800显卡上进行,通过Agent-Lightning封装实现了轨迹采集、奖励传递和标准化接口,使系统具备扩展性。该方法不仅适用于SQL任务,也可推广到其他Agen

2025-11-17 14:01:05 804

原创 Agentic RL实战:打造自主学习自主迭代的高性能 Agent

微软Agent-Lightning框架提供了一种端到端的Agentic RL解决方案,支持强化学习、自动提示优化和监督式微调等算法。该框架具有与框架无关、最小侵入、灵活部署等特点,通过解耦架构实现算法与运行器的高效协同。本文详细介绍了基于LangGraph的SQL-Agent强化学习微调流程,采用"运行与训练分离"的设计思想,运行模块负责Agent执行逻辑,训练模块基于veRL框架进行策略优化。重点阐述了LangGraph的工作流图设计、Agent-Lightning的封装机制以及GRP

2025-11-13 09:00:00 1048

原创 五分钟带你了解 AI 网关:Agent 与模型间的桥梁

Higress AI网关构建了AI模型与Agent间的桥梁,提供四大核心能力:1)令牌限流实现Token级配额管理;2)多模型代理统一协议并支持故障降级;3)内容安全实现请求脱敏与响应审查;4)语义缓存降低响应时延与成本。同时支持MCP市场化能力,包括将REST API转换为MCP Server及统一托管服务。文章还针对外部API服务、企业知识助手和Agent工具接入三大场景给出实践建议,帮助用户快速落地应用。Higress整合了网关基础能力与AI专属功能,为AI应用提供安全、稳定、高效的运行环境。

2025-11-12 17:59:10 734

原创 Agentic RL详解:打造自主学习自主迭代的高性能 Agent

​ 强化学习(Reinforcement Learning,简称 RL)是一类机器学习范式,其核心思想是:智能体(Agent)在环境(Environment)中反复执行动作(Action),通过观察环境状态(State)和获得奖励(Reward)来调整行为策略(Policy),从而在长期运行中最大化累积奖励。状态 (State):智能体所处环境的当前观测,例如屏幕画面、传感器数据、对话上下文等。动作 (Action)

2025-11-12 16:02:01 693

原创 Agent RL 速览 — 打造自主学习的 Agent

摘要:在大模型时代,强化学习(RL)已成为提升智能体(Agent)系统性能的关键技术。Agent RL通过优化智能体在动态环境中的自主行动、工具调用和任务执行能力,显著区别于传统LLM的文本生成优化。主流的Agent RL框架包括ART(专注于单Agent任务执行,支持GRPO等算法)和Microsoft Agent-Lightning(面向多Agent协作的企业级平台,支持PPO等算法)。两者分别适用于不同场景,共同推动智能体在自动化流程、对话系统等领域的应用。

2025-11-12 16:00:32 1373

原创 RocketMQ For AI:多智能体异步通信新方案

摘要:RocketMQ推出LiteTopic特性,专为AI场景设计的多智能体异步通信架构。LiteTopic支持轻量级动态创建、自动生命周期管理和高性能订阅,解决AI应用中的长耗时任务阻塞和会话连续性挑战。其核心优势包括排他消费、顺序性保障和百万级轻量级主题支持,已在阿里云RocketMQ 5.x实例部署并提交至开源社区。典型应用场景包括Multi-Agent异步通信(实现任务并行调度与结果异步回传)和分布式会话状态管理(确保断线续传避免任务重复)。该方案显著提升了AI应用的可靠性和资源利用率。

2025-11-11 15:14:38 620

原创 谁是OCR王者?MinerU、PaddleOCR、DeepSeek-OCR 实测对比,集成一个多模态PDF解析系统

本文对比评测了三款主流OCR工具(MinerU、PaddleOCR、DeepSeek-OCR)的技术架构与性能表现。测试显示,DeepSeek-OCR在复杂文档识别准确率(97%)和处理速度(100页/8分钟)领先,PaddleOCR轻量化优势突出(国产硬件支持),MinerU擅长干扰信息过滤。文章还提出基于vLLM框架的多模态数据分析系统方案,整合三款OCR工具的优势功能,并计划开源该系统实现本地部署需求。完整资料可通过社区链接获取,助力企业级OCR技术落地应用。

2025-11-10 18:41:29 1192

原创 Langchain1.0实战:OCR 多模态PDF解析系统(集成MinerU、DeepSeek-OCR、PaddleOCR)

本篇文章系统梳理了企业级常用的三类多模态 OCR 工具 —— MinerU、PaddleOCR-VL、DeepSeek-OCR,并从场景适配角度分析了它们各自的技术侧重点与应用价值。文章以实战为导向,展示如何将三大 OCR 解析引擎通过 vLLM 推理框架部署为独立服务,并进一步构建一个可统一调用的多模态解析系统

2025-11-09 17:26:29 1684

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除