- 博客(85)
- 收藏
- 关注
原创 aisuite:统一的大模型SDK,简化LLM开发流程
aisuite是一个轻量级的封装层,提供统一的接口,使开发者能够通过简单的字符串(例如openai:gpt-4o或anthropic:claude-3-5)在不同的LLM之间切换,而无需重写大量代码。aisuite作为一个开源的Python库,通过提供统一的接口和灵活的模型切换机制,简化了跨多个LLM提供商的集成过程。对于经常使用不同LLM的开发者来说,可以显著降低开发门槛,提高开发效率,是不容错过的选择。
2025-09-05 09:46:14
445
原创 LangExtract:基于LLM的信息抽取框架|附项目解析与实战代码
在LLM能力越来越强的今天,大部分传统的NLP任务已经没有必要专门训练一个模型去解决了,很多都可以使用LLM来处理,甚至不需要进行微调,如使用开源的VLM做版本分析和文档提取已经超过很多传统的Pipeline方法了。也是利用LLM进行NER和KIE,只不过定义好了基本的框架,允许用户根据实际情况调整需要的Prompt和Example。
2025-09-03 10:06:12
807
原创 从Chat Completions到Responses,OpenAI Agent接口设计的演变
OpenAI在2025年推出了,在他们的官方宣传中,可以看到他们一直希望使用这个来替代。在这之前,已经成为了主流的通用接口规范,由于该接口每次请求都需要带上完整上下文,服务端无需管理会话状态,因此更易扩展、能高并发处理,使其在实际应用中取得了广泛的成功。现如今主推,并不仅仅是命名更新,而是为Agent、多模态、检索增强等应用场景进行的架构升级,以期成为另一个的标准制定者。
2025-09-03 10:05:53
648
原创 Deep Research的架构演进:从Multi Agent到Supervisor-Researcher模式的技术实践
在AI Agent领域,应该算是最早的智能体应用,最初是由Google和OpenAI推出商用版本,后来也出现很多开源的项目。作为一名长期关注智能体架构设计的开发者,我最近深入研究了Langchain AI的这个项目,本文将从技术角度剖析这个项目的核心实现,并对比分析其历史版本与当前版本的架构差异。
2025-09-03 10:05:16
556
原创 Gemini CLI源码解析:深入工具系统的实现细节
开发自定义工具非常简单,只需继承BaseToolsuper(},},// 实现具体逻辑return {类型安全的接口设计:确保编译时和运行时的正确性灵活的扩展机制:支持内置工具、命令行发现和 MCP 服务器完善的安全机制:多层次的安全验证和用户确认优雅的执行流程:清晰的职责分离和错误处理对于AI 开发者以及所有对AI工具集成感兴趣的人来说,如何让复杂的系统保持简洁、安全和可扩展,Gemini CLI的工具系统都值得深入学习和借鉴。
2025-09-03 10:04:53
970
原创 Gemini CLI源码解析:Agent与上下文管理实现细节
gemini-cli的设计思路不乏以下亮点:循环控制 :多层安全机制确保系统稳定性,包括轮次限制和智能循环检测上下文管理 :无数据库依赖的轻量级设计,结合智能压缩和结构化摘要,有效管理长对话历史与Manus类似,gemini-cli使用文件系统持久化长期记忆,因为文件系统就是天然的数据库,这种设计既保证了系统的可靠性和性能,又提供了良好的用户体验和扩展性。不过,略显遗憾的是目前gemini-cli使用的仍然是单一主控Agent来控制所有交互,响应速度上会比较差;而。
2025-09-03 10:04:38
795
原创 GLM-4.5系列模型导读,综合能力更强的高性价比模型
在沉寂了半年之后,智谱推出了新一代开源模型GLM-4.5系列,采用MOE架构并使用混合推理模式。模型统一提升了在等多方面的能力,专为复杂智能体应用打造。由于官方的技术报告暂未发布,模型细节暂时无从得知,本文内容仅做导读,方便读者对该系列模型有个初步认识。
2025-09-03 10:03:41
598
原创 构建AI智能体的“上下文工程”方法论:Manus团队的实战经验
上下文工程已成为现代AI Agent系统不可或缺的一部分。无论模型本身如何进化,对上下文的建模、维护、裁剪与反馈机制的设计,将决定一个智能体是否稳健、高效、可扩展。本文只是对Manus技术团队分享的经验做了一些提取,感兴趣的读者请直接阅读官方的技术博客。
2025-09-03 10:03:04
321
原创 Kimi k2:最大开源Agentic LLM,Claude开源平替
Kimi K2的设计远超一个更大、更强的模型本身,Agentic-first设计体现真实执行力,不只是答题。传统LLM 偏向生成文本,而 Kimi K2将 agentic 能力(自动调用工具、执行多步任务)作为核心,从设计到评测均体现此路,简单聊天已无法衡量它的真正潜力。目前在上下文长度和Agent能力与顶尖的闭源模型存在一定差距,但是其后续影响应该会与Deepseek V3&R1类似,对整个开源AI生态起到积极作用。
2025-09-03 10:02:42
895
原创 OCRFlux-3B:开源 OCR + LLM 模型的新标杆,支持跨页表格合并
OCRFlux-3B 是目前业内首个开源支持跨页结构智能合并的模型,不仅精度高,而且支持关键的结构化能力,并且能够在消费级硬件上运行,实用性极高。如果你正在做文档结构提取、知识库构建或企业文档数字化系统,不妨试试OCRFlux-3B,它可能会是目前最具性价比的选择之一。
2025-07-09 15:03:00
1666
原创 Prompt Engineering vs Context Engineering:我们与LLM交互方式的演变
Prompt Engineering是早期在ChatGPT时代的产物,这意味着用户需要在聊天框里输入一些奇怪的内容,然后观察模型的输出效果,接着不断调整输入的提示词,直到满意为止。不过写Prompt没有统一的范式,只有一些模糊的经验可供参考,因此还诞生出很多提示词工程师的岗位。Prompt Engineering 的本质,是一句话搞定模型:“你是一位 X 专家,请像 Z 一样完成任务 Y。”它依赖语言的表达技巧,通过优化提示的措辞、结构、语气甚至加入几个示例(few-shot)来引导模型生成想要的输出。
2025-07-05 11:44:36
667
原创 Nanonets-OCR:Qwen2.5VL-3B的微调模型 更强大的文档解析能力|附效果实测
传统的Pipeline方式,只能检测出图片,无法处理图片的内容;相比之下,Nanonets-OCR模型,不只是看得见文字,更能从图片中提取出具体的语义信息,从而丰富文档的内容。在一些高级RAG场景中,可以借助VLM的多模态能力,对图片进行总结,在召回阶段对图片的语义信息进行向量检索,即可召回相关的图片,增加RAG的可信度。
2025-06-24 19:05:23
952
原创 MonkeyOCR:用三元组范式重构文档解析与识别
Structure(文档结构检测):识别各个语义块的位置和类型Recognition(内容识别):识别各语义块的具体内容,如文字、表格、公式等Relation(关系建模):预测块之间的逻辑阅读顺序针对端到端和模块化两种方式的缺点,MonkeyOCR取其两者精华,将文档解析抽象为三个子任务,提出结构-识别-关系三元组(Structure-Recognition-Relation)。这种设计融合了Pipeline的可解释性与End-to-End的统一优势。
2025-06-20 12:51:19
1106
1
原创 Mem0:新一代AI Agent的持久化记忆体系
Mem0 作为一个易用、灵活且功能强大的记忆增强框架,极大地扩展了大语言模型的上下文记忆能力。无论是构建常见的多轮对话机器人、智能搜索系统还是个性化推荐服务,Mem0 都是一个非常值得尝试的工具。
2025-06-16 19:26:57
1513
原创 AI Agent的记忆体系与架构设计
在实际应用中,需要考虑效率和准确率、以及性价比来选择最合适的方案。对于简单的聊天机器人场景,可以直接使用滑动窗口维护上下文,利用LLM的长上下文能力保持记忆;如果需要Agent能在多个会话历史中保持记忆,则需要借助数据库进行持久化;对于超长期的记忆,可以利用LLM进行关键信息的抽取并进行结构化存储。
2025-06-12 16:31:46
945
原创 SmolDocling-256M:极小参数量的视觉语言模型|端到端文档解析方案的另一种思路
传统的一站式文档解析工具,包含布局分析、OCR和表格识别等,往往需要结合多个独立的模型,同时根据处理任务的不同调用不同的模型,增加了处理流程的复杂度,并且难以泛化到不同的文档类型。大型视觉语言模型(LVLMs)虽然提供端到端的解决方案,但是计算成本高,如Qwen2.5VL系列模型,至少7B以上的模型才有不错的效果,这对于文档解析这种轻量型的任务来说计算负担太重了。
2025-05-29 19:45:40
630
1
原创 新一代Python管理UV完全使用指南|附实际体验与效果对比
uv包含以下命令,前几个是比较常用的。命令描述run运行命令或脚本init创建一个新项目add向项目中添加依赖项remove从项目中移除依赖项sync更新项目的环境lock更新项目的锁定文件export将项目的锁定文件导出为其他格式tree显示项目的依赖树tool运行和安装由 Python 包提供的命令python管理 Python 版本和安装pip使用兼容 pip 的接口管理 Python 包venv创建虚拟环境build将 Python 包构建为源代码分发包和 wheelspublish。
2025-05-29 19:45:14
1671
原创 一文看懂现役最强开源模型Qwen3
感觉本次Qwen3最大的亮点就是模型原生支持思考模式和非思考模式,可以根据不同的任务需要选择不同的模式,无需跟往常一样同时部署推理模型和对话模型,一个模型即可搞定所有工作。思考模式:在这种模式下,模型会逐步推理,适合需要深入思考的复杂问题。非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用简单问题。
2025-05-29 19:44:35
912
原创 告别RAG上下文丢失:Late Chunking 与 Contextual Retrieval 深度对比解析
Late Chunking和Contextual Retrieval都为传统分块方法中固有的上下文丢失问题提供了各自的解决方案:● Late Chunking 采用“先嵌入后分块”的方式 ,在多个分块之间保留语义信息,利用的是模型结构的特点,不会造成额外的消耗;● Contextual Retrieval 则基于LLM为每个分块添加文档范围的上下文信息进行增强 ,会造成大量的token损耗,同时效果高度依赖于所使用的LLM。
2025-05-29 19:43:14
971
原创 Ollama-OCR:基于Ollama多模态大模型的端到端文档解析和处理
Ollama-OCR 提供多种输出格式以适应不同场景:● Markdown:保留结构化格式,包括标题和列表● 纯文本:提取干净、无格式的文本● JSON:便于集成的结构化数据输出● 结构化格式:提取并组织表格和层级内容● 键值对:适合处理表单、发票和收据● 表格:高效提取所有表格数据。
2025-05-24 21:39:55
487
原创 PostgREST:无需后端 快速构建RESTful API服务
PostgREST 是一种无服务器解决方案,允许开发者将 PostgreSQL 数据库直接暴露为 RESTful API,无需编写后端代码。它自动将数据库的表、视图、函数映射为 API 接口,并内置 JWT 解析功能,支持角色权限管理。通过简单的配置和安装,开发者可以快速启动服务,并使用 curl 进行数据查询、新增、更新和删除操作。PostgREST 特别适合希望减少后端开发负担、专注于核心功能开发的团队,提供了一种高效、简洁的 API 构建方式。
2025-05-14 19:43:28
635
原创 MCP原理解析与效果实测|附实用MCP推荐
前面提到的Cursor相当于MCP架构中的Client(实际上是包含了Client的host),因此对于普通用户来说,只需要关注自身需要什么样的功能(Server),去找到相应的功能(Server)安装即可。对于开发者而言,如果需要让自己的程序能够使用已有的MCP Server,则需要针对自己的程序进行改造,使其符合MCP规范才行。目前官方也分别提供了Python 和 Js的SDK,可以很方便进行开发。
2025-03-30 16:53:08
550
原创 PandaAI:使用自然语言进行数据分析的利器
PandaAI是一个典型的Text2SQL智能体,核心原理是利用大模型将自然语言查询转换为可执行的代码,通过封装的.chat方法,将问题、表头和 5-10 行数据传递给大模型,然后由模型生成最相关的代码(Python 或 SQL),同时生成的代码在本地执行,并把产生的结果按照最符合问题的形式进行返回。基本上所有的Text2SQL都大同小异,而PandaAI额外支持了一些数据预处理的方法和自动选择特定格式进行输出,算是一些不错的亮点。
2025-03-30 16:48:33
1266
原创 Docling:统一的多文档解析框架 支持多种文档类型的处理与转换
对于每种文档格式,Docling会自动识别应该调用哪一种Pipeline进行解析处理,并且解析后可以导出不同的数据格式,如Markdown、字典等,甚至还能进一步进行分块处理。
2025-03-30 16:44:04
934
1
原创 图解大模型注意力计算过程以及KV Cache原理
首先,我们看看大模型生成过程中每一步是怎么进行的。<Begin>是一个起始符,用于标记句子的开头。当模型的输入只有<Begin>的时候,模型输出概率最大的词I,表示在模型看来,以I作为句子的实际开头是合理的;当模型的输入变成<Begin>和I的时候,模型预测出下一个词大概率是have。依此类推,整个生成过程就是把模型预测出的词拼接到输入的句子中去,组成新的输入句子后,再让模型预测这个新输入句子的下一个词汇是什么。
2025-03-13 22:28:22
1105
原创 让浏览器AI起来:基于大模型Agent的浏览器自动化工具
agent默认的输出结果是文本,同时也支持自定义输出格式,实现结构化输出。if result:')')')')else:整个项目实际测试下来实用性不是很强,甚至连完成简单的谷歌搜索都得好一会儿,从后端的日志看应该是模型一些思考过程太多、步骤太冗余导致的。不过页面的html结构识别还比较完善,这对于精确触发一些页面事件应该是个好事。目前看来比较实用的agent就是这类项目,利用推理模型的推理能力+联网搜索整合出完善的研究报告。
2025-02-21 22:53:55
1251
1
原创 推理模型时代:大语言模型如何从对话走向深度思考?
对于推理模型,Promot工程同样并未失效,相反,Prompt工程中很多原则依旧不可忽视,如:清晰描述清楚需求。但是,由于推理模型自身的运行机制,需要提供比对话模型更加详细的上下文信息,同时明确表达想要的结果不要过多指导模型的实现过程。目前推理模型还处于发展初期,相信今年会有更多杰出和激动人心的研究成果发布。
2025-02-21 22:52:35
1163
原创 一文了解大模型性能评测数据、指标以及框架
笔者最近在对比浏览各种大模型性能时,发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数,对于大多数人来说,可能就看个分数高低就忽略了。因此,本文整理了一些常见的评测数据集和指标说明,希望对于普通读者有所帮助。
2025-02-21 22:45:56
1706
原创 AI Agent Service Toolkit:一站式大模型智能体开发套件
在src/agents下新增自定义的agent模块。将新增的agent导入src/agents/agents.py。该项目默认提供了4种agent,其中的chatbot只能做简单的对话,因此笔者打算将其改造为智能问答阅读助手,可以用于解读上传的文件。只需修改src/streamlit_app.py。
2025-02-21 22:41:31
924
原创 DeepSeek官方推荐软件汇总
这段时间以来,各大云服务厂商先后推出DeepSeek API服务,不少国产芯片企业也纷纷宣布完成模型适配工作,基于DeepSeek也催生出许多应用层面的产品,这是自2022年底ChatGPT发布之后的又一次AI领域的盛况。个人感觉单纯从影响力来说,DeepSeek系列模型的发布,不仅仅像一个模型了,更像是一个底层操作系统或者一个全新的生态,在未来可能诞生更多的机会或杀手级别的应用。本文从DeepSeek官方推荐的应用或插件列表中,整理收集了一些比较热门或实用性较强的软件。
2025-02-21 22:33:01
1217
原创 DeepSeek系列模型完全使用手册|附安装教程
DeepSeek系列模型在去年12月发布以来引起了不少关注,而推理模型R1的发布则进一步点燃了国内外用户的热情。鉴于仍有不少用户完全没有使用经验,而网上现有的信息可能比较零碎,反而会导致初学者更加困惑。因此本文整理了DeepSeek系列模型的基本说明和一些使用方法,此外还提供了一个第三方客户端的安装教程,用于让初学者也能用上国产最强大的推理模型。
2025-02-03 15:22:25
2850
原创 Qwen2.5-VL:更强大的多模态大模型|附实测结果
这版模型增强了对于文档的解析和问答效果,可以一定程度上替代OCR模型的使用,也具备关键信息提取的能力,同时能够实现格式化输出。表格解析和文档解析可能会有丢失格式的情况,在文档解析中,原始文档中的图片是没法复原的。这个过程可能也与提示词有关,或者需要多轮交互让模型输出正确的样式。
2025-02-01 11:12:41
1456
原创 DeepSeek-R1:开源Top推理模型的实现细节、使用与复现
● 直接用强化学习就可以让模型获得显著的推理能力,说明并不一定需要SFT才行。● 强化学习并不一定需要复杂的奖励模型,使用简单的规则反而取得意想不到的效果。● 通过知识蒸馏让小模型一定程度上也有推理能力,甚至在某些场景下的表现超过了Top模型,比直接在小模型上进行强化学习更好。
2025-01-28 10:47:33
1533
原创 AI实现个人阅读网页插件
日常工作中经常需要浏览各种Github项目或者一些网页,逐字逐句看总觉得不够效率,如果在每次打开一个新的页面时就能够掌握大概的内容,然后再决定是否深入阅读就方便多了。有了这样的念头后,总想自己开发一款简单的浏览器插件,但是始终没有提上日程。目前随着AI编程工具越来越强大和普及,使用AI进行辅助开发是程序员工作中不可缺少的一环,这篇文章就是记录利用前段时间免费开放的GitHub Copilot进行插件开发的过程和效果。
2025-01-25 10:36:09
1039
原创 热门开源Ai搜索引擎对比分析
Mindsearch的Agent设计比较复杂一些,会对问题进行拆解并多次检索,适用于一些深度的总结,有点类似于Perplexity的深度搜索模式。其他几个AI搜索引擎基本流程都是调用搜索引擎对问题进行检索,然后由模型对答案进行总结生成,Agent都比较固定,甚至有一些都没有对问题进行改写。此外,这些框架都能提供数据源支撑,并且生成相似的问题推荐,也是符合目前对主流搜索框架的要求。
2025-01-16 11:45:00
1716
原创 仅需一个插件让关系型数据库实现图数据存储与检索
对于生产环境来说,PostgreSQL是最常用的数据库之一,有了Age这个插件,可以无缝为传统的RAG知识库服务提供图检索能力,真正做到All in one,同时也无需担心额外增加图数据库引入的复杂性和兼容问题。
2025-01-13 11:30:00
536
原创 GitHub Copilot免费上线!快速上手指南与功能解析
对话式聊天对话式编辑编辑器内联聊天快速聊天这4种方式分别有不同的使用场景,编辑主要是让AI直接在代码编辑区直接生成代码,聊天主要是与AI进行交互,例如可以要求解释代码、debug等。
2024-12-30 15:00:00
769
原创 LangGraph:基于图结构的大模型智能体开发框架
LangGraph的StateGraph是一种状态机,包含了节点和边,节点一般是定义好的函数,边用于连接不同的节点,用于表示图的执行顺序。初始化模型和工具定义图的状态信息定义图节点定义图的入口节点和边关系编译图执行图# 初始化模型# 定义图的状态信息# 定义图节点# 定义图的入口和边# 编译图# 执行图user_input = '介绍你自己'
2024-12-20 11:30:00
1141
原创 轻量高效的知识图谱RAG系统:LightRAG
除了从文档创建图谱外,LightRAG还支持以离线的方式添加实体或者关系以及原始chunk。},],],},},},],● 在构建图谱的过程中为每个实体节点和关系边生成一个文本的键值对。每个索引键是一个单词或短语,用于高效检索,对应的值是一个经过总结外部数据后生成的文本段落,,有助于文本生成。● 增量更新算法使得在新增文档的适合无需重新构建图谱,这使得LightRAG具有更显著的经济性和便捷性。
2024-12-12 19:54:34
753
原创 PostgreSQL 数据库向量化的核心:pgvector
pgvector是一款开源的向量搜索引擎,除了具备所有Postgres数据库的特性外,最主要的特点是能在Postgres数据库存储和检索向量数据,支持向量的精确检索和模糊检索。向量格式除了传统embedding模型的单精度浮点数外,还支持半精度浮点数,二元向量或者稀疏向量。
2024-11-24 10:26:39
1789
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人