自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 收藏
  • 关注

原创 RAG的另一种思路,基于文档树结构的推理型检索

与传统RAG相比,PageIndex的结构更加轻量。它不依赖复杂的向量数据库,而是以树状结构将文档组织为可解析的JSON文件,大幅降低了部署难度和成本。同时,它保留了文档的自然上下文,避免了人工分块造成的语义破碎,使得信息在检索时更连贯、更准确。PageIndex的核心优势在于推理型检索。通过让LLM沿树结构逐层推理,它能够找到真正相关的内容,而非仅仅语义相似的段落。每次检索的结果都附带完整的推理轨迹与页码引用,实现了过程的透明与可验证。然而,这种方法也并非没有代价。

2025-11-05 10:43:41 690

原创 Agent架构新方向?Claude Skills工作原理解析

是 Claude 提供的一种可扩展机制。每个 Skill 本质上是一个文件夹,包含元数据、说明文档以及可选的代码脚本和资源文件。这些技能仅在需要时才会被加载,使 Claude 在执行特定任务时具备专门的知识和流程。与传统一次性提示不同,Skills 通过渐进式披露的方式工作:Claude 会在会话开始时扫描所有技能的元数据,包括名称和简要描述,将其作为系统提示的一部分,而这部分代价极低,通常几十个 token。

2025-11-05 10:42:36 1227

原创 如何选择合适的 AI Agent框架?OpenAI vs Claude vs LangGraph功能特点汇总

代表速度与协作追求稳定与深度LangGraph强在灵活与控制MCP则是连接一切的桥梁。

2025-10-28 11:16:57 855

原创 AI Agent上下文工程设计指南|附实用工具推荐

与其一味追求更大模型、更高参数,我们更应该注重如何让模型在有限的上下文中高效工作,这才是让 AI Agent真正走向实用的关键。大多数大型语言模型都有一个固定的上下文窗口,这意味着我们不能把所有信息都一股脑地塞进去,而必须像挑选和整理信息,只提供最核心、最关键的内容输入进去。在开源社区有不少工具,可以用于AI Agent上下文工程的辅助开发,它们能帮助我们更高效地构建和管理复杂的 AI Agent。写入上下文的目标是把关键信息保存在模型当前上下文窗口之外,以便日后检索使用,从而构建Agent的持久化知识。

2025-10-15 09:48:39 614

原创 解密vLLM:基于nano-vllm源码剖析其推理加速之道

vLLM对于部署过大模型的人来说应该都不算陌生, 它能极大提升LLM的服务吞吐量,显著降低推理成本。vLLM成功的核心秘诀在于一项名为的技术及其配套的调度策略,对于不熟悉底层的人来说,这些概念可能非常晦涩难懂。幸好,DeeoSeek一位研究员开源了一个学习项目,,仅使用约1200行Python代码就实现了vLLM的核心功能,相比原生的vLLM来说更容易学习其核心思想。得益于轻量化的设计,在Qwen3的推理速度上比vLLM更快。

2025-10-15 09:48:10 1143

原创 VLM做文档OCR效果如何?我拿了几个常见模型进行对比

最近腾讯也开源了一个端到端视觉语言模型POINTS-Reader,在OCR任务上表现不错;至此,国内已经有不少专门针对OCR任务进行训练的开源VLM了。成绩打榜是一方面,实际用起来效果如何、好不好用可能又是另一方面。因此,本文将对比几款最近比较流行的VLM模型,通过不同的Prompt测试模型在PDF上的文本识别效果。

2025-09-30 10:00:58 891

原创 Embedding Gemma,谷歌发布的小而精向量模型,仅需0.3B|附RAG实战代码

EmbeddingGemma是Google发布的开源小规模多语言文本嵌入模型,旨在常见设备(如手机、笔记本、台式机)上高效运行,同时在 MTEB / MMTEB 等评测任务中保持与同类模型竞争的性能。其核心价值在于:支持离线运行、保护隐私、内存占用小、兼容多种推理框架,并提供灵活的输出维度。

2025-09-30 10:00:29 542

原创 UltraRAG:一个基于MCP协议,完全模块化的RAG框架

UltraRAG 的核心思想是将一个完整的 RAG流程拆解为一系列独立的、可互相通信的MCP Server,从而根据实际需要进行增删。以下是RAG中的一些核心模块:servers/retriever: 负责从知识库中检索相关文档。servers/reranker: 负责对检索到的文档进行重新排序,提升相关性。servers/generation: 负责基于处理后的信息生成最终答案。servers/corpus: 管理和索引知识语料。

2025-09-12 14:08:12 983

原创 AI IDE如何构建高效代码索引?以一个MCP Server的开发过程进行阐述

AST是源代码语法结构的抽象树状表示。树中的每一个节点都代表代码中的一个构造。这能够将代码视为结构化实体,而非纯文本,从而精确地提取函数、类、方法等逻辑单元。import ast import inspect import graphviz from ast import NodeTransformer , fix_missing_locations , copy_location # 1.要处理的源代码 source_code = """

2025-09-12 14:07:39 939

原创 aisuite:统一的大模型SDK,简化LLM开发流程

aisuite是一个轻量级的封装层,提供统一的接口,使开发者能够通过简单的字符串(例如openai:gpt-4o或anthropic:claude-3-5)在不同的LLM之间切换,而无需重写大量代码。aisuite作为一个开源的Python库,通过提供统一的接口和灵活的模型切换机制,简化了跨多个LLM提供商的集成过程。对于经常使用不同LLM的开发者来说,可以显著降低开发门槛,提高开发效率,是不容错过的选择。

2025-09-05 09:46:14 510

原创 LangExtract:基于LLM的信息抽取框架|附项目解析与实战代码

在LLM能力越来越强的今天,大部分传统的NLP任务已经没有必要专门训练一个模型去解决了,很多都可以使用LLM来处理,甚至不需要进行微调,如使用开源的VLM做版本分析和文档提取已经超过很多传统的Pipeline方法了。也是利用LLM进行NER和KIE,只不过定义好了基本的框架,允许用户根据实际情况调整需要的Prompt和Example。

2025-09-03 10:06:12 1061

原创 从Chat Completions到Responses,OpenAI Agent接口设计的演变

OpenAI在2025年推出了,在他们的官方宣传中,可以看到他们一直希望使用这个来替代。在这之前,已经成为了主流的通用接口规范,由于该接口每次请求都需要带上完整上下文,服务端无需管理会话状态,因此更易扩展、能高并发处理,使其在实际应用中取得了广泛的成功。现如今主推,并不仅仅是命名更新,而是为Agent、多模态、检索增强等应用场景进行的架构升级,以期成为另一个的标准制定者。

2025-09-03 10:05:53 849

原创 Deep Research的架构演进:从Multi Agent到Supervisor-Researcher模式的技术实践

在AI Agent领域,应该算是最早的智能体应用,最初是由Google和OpenAI推出商用版本,后来也出现很多开源的项目。作为一名长期关注智能体架构设计的开发者,我最近深入研究了Langchain AI的这个项目,本文将从技术角度剖析这个项目的核心实现,并对比分析其历史版本与当前版本的架构差异。

2025-09-03 10:05:16 666

原创 Gemini CLI源码解析:深入工具系统的实现细节

开发自定义工具非常简单,只需继承BaseToolsuper(},},// 实现具体逻辑return {类型安全的接口设计:确保编译时和运行时的正确性灵活的扩展机制:支持内置工具、命令行发现和 MCP 服务器完善的安全机制:多层次的安全验证和用户确认优雅的执行流程:清晰的职责分离和错误处理对于AI 开发者以及所有对AI工具集成感兴趣的人来说,如何让复杂的系统保持简洁、安全和可扩展,Gemini CLI的工具系统都值得深入学习和借鉴。

2025-09-03 10:04:53 1079

原创 Gemini CLI源码解析:Agent与上下文管理实现细节

gemini-cli的设计思路不乏以下亮点:循环控制 :多层安全机制确保系统稳定性,包括轮次限制和智能循环检测上下文管理 :无数据库依赖的轻量级设计,结合智能压缩和结构化摘要,有效管理长对话历史与Manus类似,gemini-cli使用文件系统持久化长期记忆,因为文件系统就是天然的数据库,这种设计既保证了系统的可靠性和性能,又提供了良好的用户体验和扩展性。不过,略显遗憾的是目前gemini-cli使用的仍然是单一主控Agent来控制所有交互,响应速度上会比较差;而。

2025-09-03 10:04:38 1008

原创 GLM-4.5系列模型导读,综合能力更强的高性价比模型

在沉寂了半年之后,智谱推出了新一代开源模型GLM-4.5系列,采用MOE架构并使用混合推理模式。模型统一提升了在等多方面的能力,专为复杂智能体应用打造。由于官方的技术报告暂未发布,模型细节暂时无从得知,本文内容仅做导读,方便读者对该系列模型有个初步认识。

2025-09-03 10:03:41 886

原创 构建AI智能体的“上下文工程”方法论:Manus团队的实战经验

上下文工程已成为现代AI Agent系统不可或缺的一部分。无论模型本身如何进化,对上下文的建模、维护、裁剪与反馈机制的设计,将决定一个智能体是否稳健、高效、可扩展。本文只是对Manus技术团队分享的经验做了一些提取,感兴趣的读者请直接阅读官方的技术博客。

2025-09-03 10:03:04 390

原创 Kimi k2:最大开源Agentic LLM,Claude开源平替

Kimi K2的设计远超一个更大、更强的模型本身,Agentic-first设计体现真实执行力,不只是答题。传统LLM 偏向生成文本,而 Kimi K2将 agentic 能力(自动调用工具、执行多步任务)作为核心,从设计到评测均体现此路,简单聊天已无法衡量它的真正潜力。目前在上下文长度和Agent能力与顶尖的闭源模型存在一定差距,但是其后续影响应该会与Deepseek V3&R1类似,对整个开源AI生态起到积极作用。

2025-09-03 10:02:42 1170

原创 OCRFlux-3B:开源 OCR + LLM 模型的新标杆,支持跨页表格合并

OCRFlux-3B 是目前业内首个开源支持跨页结构智能合并的模型,不仅精度高,而且支持关键的结构化能力,并且能够在消费级硬件上运行,实用性极高。如果你正在做文档结构提取、知识库构建或企业文档数字化系统,不妨试试OCRFlux-3B,它可能会是目前最具性价比的选择之一。

2025-07-09 15:03:00 2014

原创 Prompt Engineering vs Context Engineering:我们与LLM交互方式的演变

Prompt Engineering是早期在ChatGPT时代的产物,这意味着用户需要在聊天框里输入一些奇怪的内容,然后观察模型的输出效果,接着不断调整输入的提示词,直到满意为止。不过写Prompt没有统一的范式,只有一些模糊的经验可供参考,因此还诞生出很多提示词工程师的岗位。Prompt Engineering 的本质,是一句话搞定模型:“你是一位 X 专家,请像 Z 一样完成任务 Y。”它依赖语言的表达技巧,通过优化提示的措辞、结构、语气甚至加入几个示例(few-shot)来引导模型生成想要的输出。

2025-07-05 11:44:36 753

原创 Nanonets-OCR:Qwen2.5VL-3B的微调模型 更强大的文档解析能力|附效果实测

传统的Pipeline方式,只能检测出图片,无法处理图片的内容;相比之下,Nanonets-OCR模型,不只是看得见文字,更能从图片中提取出具体的语义信息,从而丰富文档的内容。在一些高级RAG场景中,可以借助VLM的多模态能力,对图片进行总结,在召回阶段对图片的语义信息进行向量检索,即可召回相关的图片,增加RAG的可信度。

2025-06-24 19:05:23 1278

原创 MonkeyOCR:用三元组范式重构文档解析与识别

Structure(文档结构检测):识别各个语义块的位置和类型Recognition(内容识别):识别各语义块的具体内容,如文字、表格、公式等Relation(关系建模):预测块之间的逻辑阅读顺序针对端到端和模块化两种方式的缺点,MonkeyOCR取其两者精华,将文档解析抽象为三个子任务,提出结构-识别-关系三元组(Structure-Recognition-Relation)。这种设计融合了Pipeline的可解释性与End-to-End的统一优势。

2025-06-20 12:51:19 1209 1

原创 Mem0:新一代AI Agent的持久化记忆体系

Mem0 作为一个易用、灵活且功能强大的记忆增强框架,极大地扩展了大语言模型的上下文记忆能力。无论是构建常见的多轮对话机器人、智能搜索系统还是个性化推荐服务,Mem0 都是一个非常值得尝试的工具。

2025-06-16 19:26:57 1742

原创 AI Agent的记忆体系与架构设计

在实际应用中,需要考虑效率和准确率、以及性价比来选择最合适的方案。对于简单的聊天机器人场景,可以直接使用滑动窗口维护上下文,利用LLM的长上下文能力保持记忆;如果需要Agent能在多个会话历史中保持记忆,则需要借助数据库进行持久化;对于超长期的记忆,可以利用LLM进行关键信息的抽取并进行结构化存储。

2025-06-12 16:31:46 1085

原创 SmolDocling-256M:极小参数量的视觉语言模型|端到端文档解析方案的另一种思路

传统的一站式文档解析工具,包含布局分析、OCR和表格识别等,往往需要结合多个独立的模型,同时根据处理任务的不同调用不同的模型,增加了处理流程的复杂度,并且难以泛化到不同的文档类型。大型视觉语言模型(LVLMs)虽然提供端到端的解决方案,但是计算成本高,如Qwen2.5VL系列模型,至少7B以上的模型才有不错的效果,这对于文档解析这种轻量型的任务来说计算负担太重了。

2025-05-29 19:45:40 772 1

原创 新一代Python管理UV完全使用指南|附实际体验与效果对比

uv包含以下命令,前几个是比较常用的。命令描述run运行命令或脚本init创建一个新项目add向项目中添加依赖项remove从项目中移除依赖项sync更新项目的环境lock更新项目的锁定文件export将项目的锁定文件导出为其他格式tree显示项目的依赖树tool运行和安装由 Python 包提供的命令python管理 Python 版本和安装pip使用兼容 pip 的接口管理 Python 包venv创建虚拟环境build将 Python 包构建为源代码分发包和 wheelspublish。

2025-05-29 19:45:14 2245

原创 一文看懂现役最强开源模型Qwen3

感觉本次Qwen3最大的亮点就是模型原生支持思考模式和非思考模式,可以根据不同的任务需要选择不同的模式,无需跟往常一样同时部署推理模型和对话模型,一个模型即可搞定所有工作。思考模式:在这种模式下,模型会逐步推理,适合需要深入思考的复杂问题。非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用简单问题。

2025-05-29 19:44:35 1142

原创 告别RAG上下文丢失:Late Chunking 与 Contextual Retrieval 深度对比解析

Late Chunking和Contextual Retrieval都为传统分块方法中固有的上下文丢失问题提供了各自的解决方案:● Late Chunking 采用“先嵌入后分块”的方式 ,在多个分块之间保留语义信息,利用的是模型结构的特点,不会造成额外的消耗;● Contextual Retrieval 则基于LLM为每个分块添加文档范围的上下文信息进行增强 ,会造成大量的token损耗,同时效果高度依赖于所使用的LLM。

2025-05-29 19:43:14 1050

原创 Ollama-OCR:基于Ollama多模态大模型的端到端文档解析和处理

Ollama-OCR 提供多种输出格式以适应不同场景:● Markdown:保留结构化格式,包括标题和列表● 纯文本:提取干净、无格式的文本● JSON:便于集成的结构化数据输出● 结构化格式:提取并组织表格和层级内容● 键值对:适合处理表单、发票和收据● 表格:高效提取所有表格数据。

2025-05-24 21:39:55 723

原创 PostgREST:无需后端 快速构建RESTful API服务

PostgREST 是一种无服务器解决方案,允许开发者将 PostgreSQL 数据库直接暴露为 RESTful API,无需编写后端代码。它自动将数据库的表、视图、函数映射为 API 接口,并内置 JWT 解析功能,支持角色权限管理。通过简单的配置和安装,开发者可以快速启动服务,并使用 curl 进行数据查询、新增、更新和删除操作。PostgREST 特别适合希望减少后端开发负担、专注于核心功能开发的团队,提供了一种高效、简洁的 API 构建方式。

2025-05-14 19:43:28 739

原创 MCP原理解析与效果实测|附实用MCP推荐

前面提到的Cursor相当于MCP架构中的Client(实际上是包含了Client的host),因此对于普通用户来说,只需要关注自身需要什么样的功能(Server),去找到相应的功能(Server)安装即可。对于开发者而言,如果需要让自己的程序能够使用已有的MCP Server,则需要针对自己的程序进行改造,使其符合MCP规范才行。目前官方也分别提供了Python 和 Js的SDK,可以很方便进行开发。

2025-03-30 16:53:08 621

原创 PandaAI:使用自然语言进行数据分析的利器

PandaAI是一个典型的Text2SQL智能体,核心原理是利用大模型将自然语言查询转换为可执行的代码,通过封装的.chat方法,将问题、表头和 5-10 行数据传递给大模型,然后由模型生成最相关的代码(Python 或 SQL),同时生成的代码在本地执行,并把产生的结果按照最符合问题的形式进行返回。基本上所有的Text2SQL都大同小异,而PandaAI额外支持了一些数据预处理的方法和自动选择特定格式进行输出,算是一些不错的亮点。

2025-03-30 16:48:33 1581

原创 Docling:统一的多文档解析框架 支持多种文档类型的处理与转换

对于每种文档格式,Docling会自动识别应该调用哪一种Pipeline进行解析处理,并且解析后可以导出不同的数据格式,如Markdown、字典等,甚至还能进一步进行分块处理。

2025-03-30 16:44:04 1190 1

原创 图解大模型注意力计算过程以及KV Cache原理

首先,我们看看大模型生成过程中每一步是怎么进行的。<Begin>是一个起始符,用于标记句子的开头。当模型的输入只有<Begin>的时候,模型输出概率最大的词I,表示在模型看来,以I作为句子的实际开头是合理的;当模型的输入变成<Begin>和I的时候,模型预测出下一个词大概率是have。依此类推,整个生成过程就是把模型预测出的词拼接到输入的句子中去,组成新的输入句子后,再让模型预测这个新输入句子的下一个词汇是什么。

2025-03-13 22:28:22 1147

原创 让浏览器AI起来:基于大模型Agent的浏览器自动化工具

agent默认的输出结果是文本,同时也支持自定义输出格式,实现结构化输出。if result:')')')')else:整个项目实际测试下来实用性不是很强,甚至连完成简单的谷歌搜索都得好一会儿,从后端的日志看应该是模型一些思考过程太多、步骤太冗余导致的。不过页面的html结构识别还比较完善,这对于精确触发一些页面事件应该是个好事。目前看来比较实用的agent就是这类项目,利用推理模型的推理能力+联网搜索整合出完善的研究报告。

2025-02-21 22:53:55 1435 1

原创 推理模型时代:大语言模型如何从对话走向深度思考?

对于推理模型,Promot工程同样并未失效,相反,Prompt工程中很多原则依旧不可忽视,如:清晰描述清楚需求。但是,由于推理模型自身的运行机制,需要提供比对话模型更加详细的上下文信息,同时明确表达想要的结果不要过多指导模型的实现过程。目前推理模型还处于发展初期,相信今年会有更多杰出和激动人心的研究成果发布。

2025-02-21 22:52:35 1328

原创 一文了解大模型性能评测数据、指标以及框架

笔者最近在对比浏览各种大模型性能时,发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数,对于大多数人来说,可能就看个分数高低就忽略了。因此,本文整理了一些常见的评测数据集和指标说明,希望对于普通读者有所帮助。

2025-02-21 22:45:56 1994

原创 AI Agent Service Toolkit:一站式大模型智能体开发套件

在src/agents下新增自定义的agent模块。将新增的agent导入src/agents/agents.py。该项目默认提供了4种agent,其中的chatbot只能做简单的对话,因此笔者打算将其改造为智能问答阅读助手,可以用于解读上传的文件。只需修改src/streamlit_app.py。

2025-02-21 22:41:31 1045

原创 DeepSeek官方推荐软件汇总

这段时间以来,各大云服务厂商先后推出DeepSeek API服务,不少国产芯片企业也纷纷宣布完成模型适配工作,基于DeepSeek也催生出许多应用层面的产品,这是自2022年底ChatGPT发布之后的又一次AI领域的盛况。个人感觉单纯从影响力来说,DeepSeek系列模型的发布,不仅仅像一个模型了,更像是一个底层操作系统或者一个全新的生态,在未来可能诞生更多的机会或杀手级别的应用。本文从DeepSeek官方推荐的应用或插件列表中,整理收集了一些比较热门或实用性较强的软件。

2025-02-21 22:33:01 1292

原创 DeepSeek系列模型完全使用手册|附安装教程

DeepSeek系列模型在去年12月发布以来引起了不少关注,而推理模型R1的发布则进一步点燃了国内外用户的热情。鉴于仍有不少用户完全没有使用经验,而网上现有的信息可能比较零碎,反而会导致初学者更加困惑。因此本文整理了DeepSeek系列模型的基本说明和一些使用方法,此外还提供了一个第三方客户端的安装教程,用于让初学者也能用上国产最强大的推理模型。

2025-02-03 15:22:25 3141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除