自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 kafka总结

推模式:推模式是服务器端根据用户需要,由目的、按时将用户感兴趣的信息主动发送到用户的客户端。优点:●对用户要求低,方便用户获取需要的信息;●及时性好,服务器端及时地向客户端推送更新动态信息,吞吐量大。缺点:●不能确保发送成功,推模式采用广播方式,只有服务器端和客户端在同一个频道上,推模式才有效,用户才能接收到信息;●没有信息状态跟踪,推模式采用开环控制技术,一个信息推送后的状态,比如客户端是否接收等,无从得知;●针对性较差。推送的信息可能并不能满足客户端的个性化需求。

2025-08-25 07:26:50 158

原创 storm梳理

●Spark 更适合需要批处理和流处理结合的应用,适合大数据量的处理,容忍一定的延迟。●Storm 更适合对延迟要求极低的实时流处理应用,尤其在需要实时事件处理和实时监控的场景中表现突出。

2025-08-25 07:26:30 90

原创 AI Agent planning规划能力优化-一个简单但是收益很高的方法

类manus的方案通过链路工程让规划和执行分离(如下图),agent系统的规划和遵循规划的能力肯定会更好,尤其是针对15分钟甚至30分钟以上的长程任务。1.prompt 无法干预推理模型输出的思维链过程——推理模型的后训练一般只针对最终输出的结果,思维链的空间是由模型自由探索——而使用思考工具可以 prompt 大模型,提供 few shot 示例指导模型在特定的垂直领域该如何思考。),而使用思考工具,模型可以在多工具调用的过程中任意使用,并且保留在上下文中,这对复杂的多工具调用是有益处的。

2025-08-25 07:26:19 108

原创 AI Agent长期记忆 SOTA的优化方法-mem0

AI Agent中的记忆分为短期记忆和长期记忆,短期记忆通常用来缓存一次会话过程的上下文与推理过程;而长期记忆则为AI 智能体提供了跨会话的持久重要信息存储与快速检索能力。目前无论是LangChain/LlamaIndex这样的底层LLM框架,还是一些,在短期记忆能力上都有相对完善的解决方案;但在长期记忆能力的实现上则相对不足,特别是更智能的个性化记忆能力。

2025-08-25 07:24:06 110

原创 AI Agent “乐高“似拼接版RAG-Modular RAG

Modular RAG是上海智能自主系统研究所提出的,不同于Navie和Advanced基本上流水线的形式,Modular做了高度的解耦操作,把整个RAG系统设计成了一个个模块化的组件,每个组件独立负责特定功能,通过灵活的接口协作。这种设计使得系统更易于扩展、维护和优化,尤其适合复杂场景和长期项目。●搜索模块:与相似度检索不同,这部分可以被应用于特定的场景并在一些特殊语料上进行检索。一般使用向量、分词、NL2SQL或NL2Cypher等能力进行检索。

2025-08-25 07:23:45 101

原创 GraphRAG的标准评测框架&评测指标规范

厦大和港理工提出的GraphRAG-Bench基准测试框架,旨在全面评估 GraphRAG 模型在分层知识检索和深度上下文推理中的表现。2.检索性能(Retrieval Performance)1.生成准确性(Generation Accuracy)3.图复杂性(Graph Complexity)

2025-08-25 07:11:47 135

原创 AI Agent RAG性能优化之十:智能数据清洗

示例:统一 “自然语言处理” 和 “NLP” 为 “自然语言处理”,将 “GDP” 扩展为 “国内生产总值”示例:将 “账号:user123,密码:abc123” 替换为 “账号:[敏感信息],密码:[敏感信息]”示例:将 “张三,身份证号:1101011990XXXX1234” 替换为 “张三,[敏感信息]”清洗对象:不一致的标点符号(如全角逗号 “,” 与半角逗号 “,” 混用)、空格格式。示例:删除 “---”“第 1 页” 等纯格式行,过滤 “好的”“嗯” 等无意义短句。

2025-08-25 07:11:30 349

原创 AI Agent RAG的终究进化版-直到世界的尽头-Agentic RAG

将这种能力引入RAG系统后,系统能够自主决定是否需要检索、选择哪种检索策略、评估检索结果质量、决定是否重新检索或改写查询,以及在必要时调用外部工具。例如,你可以进行网络搜索,或者你可以使用API从Slack频道或你的电子邮件账户中检索额外的信息。然而,一些解决方案可能需要两个或多个外部知识源,一些解决方案可能需要外部工具和API,例如网络搜索。一个简单的RAG流程包括一个检索组件(通常由一个嵌入模型和一个向量数据库组成)和一个生成组件(一个LLM)。评估检索到的上下文,并决定是否需要重新检索。

2025-08-25 07:11:16 69

原创 Anthropic关于构建优秀AI Agent的经验

在 LLM(AI Agent)领域的成功不在于构建最复杂的系统,而在于为你的需求构建合适正确的系统。从简单的提示开始,通过全面的评估对其进行优化,并且仅在更简单的解决方案遇到不足时才添加多步骤的智能体系统。在实施智能体时,我们尝试遵循三个核心原则:●保持智能体设计的简洁性。●通过明确显示智能体的规划步骤来优先考虑透明度。●通过全面的工具文档和测试精心设计您的智能体-计算机界面 (ACI)。

2025-08-25 07:11:01 68

原创 LLM Agent生态系统概述

。

2025-08-25 07:10:37 50

原创 推荐系统的“小而美”->同图过滤能力建设

承接作为用增重要的一环,服务于外投拉活用户,同时兼顾承接效率和商业化收入双重目标。在当前业务目标是GMV稳定,提升承接收入的前提下,我们分析梳理并基于算法引擎的重排模块开发了同图过滤能力。本次优化主要针对承接的算法TPP进行了同图过滤能力建设,实验正向效果显著。

2025-08-25 07:10:20 70

原创 简单粗暴的收益来源:重排-店铺打散机制落地

通过对本场域的曝光商品数据进行分析,我们发现同一页面中出现多个(大于等于2个)同店铺商品的PV占比高达21.7%。从业界经验来看,在同一页面,同店铺的商品重复出现,可能会降低商品的多样性,降低用户的点击兴趣。一次PV每个店铺只出一个商品,这是个“拍脑袋”拍出来的逻辑,一次PV每个店铺出几个商品这个超参数,理论上可以通过线上AB找到近期最优的一个解,但是由于实验桶的缺乏以及人力有限,暂时先不搞啦。在重排模块,通过查询igraph表获取每个商品的来源店铺,一次PV每个店铺只保留重排分最高的一个商品,

2025-08-25 07:10:01 59

原创 AI Agent何时&如何使用AI Agent框架?

有许多框架可以使智能体(agentic)系统更容易实现,如上列举。这些框架通过简化诸如调用 LLM、定义和解析工具以及将调用链接在一起等标准的底层任务,使入门变得容易。然而,它们通常会创建额外的抽象层,这可能会掩盖底层的提示和响应,从而使其更难调试。多智能体团队协同进行产品策划、编码、评审、测试、上线等端到端流程。自动编码助手、协作式AI系统、复杂任务自动化。决策支持系统、多智能体仿真、交互式叙事引擎。企业智能助理、流程自动化、业务系统AI增强。对话助手、任务执行系统、内容生成工具。

2025-08-25 07:09:00 74

原创 何时使用&不使用AI Agent?

loading。

2025-08-25 07:08:32 68

原创 AI Agent Workflow工作流范式综述

面对具有多种考虑因素的复杂任务时,LLM通常在每种考虑因素由单独的 LLM 调用处理时,表现的更好。●将简单/常见的问题路由到Claude 3.5 Haiku等较小参数的模型,而将困难/罕见的问题路由到Claude 3.5 Sonnet这样的更强大的模型,借此来优化成本和速度。主要通过增加延迟的代价,使每次 LLM 调用变成更简单的任务,来提高的整体准确率。●文学翻译:作为翻译员的 LLM 最初可能无法捕捉翻译结果和原文中的细微差别,而作为评估者的 LLM 可以提供有用的反馈和改进建议。

2025-08-25 07:08:18 102

原创 lucene梳理

lucene基于JAVA语言开发,lucene是一个搜索框架,不是搜索引擎。elastic search就是基于lucene实现的,solr也是基于lucene实现的。Lucene 用 FST 存储词典(词项字典,词项(term) → 对应的数据(如文档频率、倒排表位置等)),以支持快速查词和前缀匹配,同时节省大量内存。TRIE可以看做是一个FSA,唯一的一个不同是TRIE只共享前缀,而FSA不仅共享前缀还共享后缀。

2025-08-24 12:39:21 157

原创 分布式计算、消息、存储、协调和锁梳理

在该系统的整个架构中将服务器分为两种类型,一种名为namenode,这种类型的节点负责管理管理数据(元数据),另外一种名为datanode,这种类型的服务器负责实际数据的管理。例如,Apache Kafka具有事务性的生产者和消费者API,但这些事务并非传统数据库事务,主要目的是保证消息的精确一次处理,而不是保证数据的ACID属性。使用单行记录的锁表:创建一个专门的锁表,每个锁对应表中的一行记录。总之,不同的分布式锁实现有各自的优缺点,应根据具体应用场景的需求和特点来选择合适的实现方案。

2025-08-24 12:38:32 501

原创 大数据平台的发展梳理(MapReduce、spark和flink总结)

Hadoop Distributed File System,Hadoop分布式文件系统,简称HDFSClientFlink Client主要给用户提供向Flink系统提交用户任务(流式作业)的能力。JobManager: 负责作业的协调和调度。作业被提交后,JobManager会根据作业拓扑将其划分为多个子任务,并调度到各个TaskManager上执行。TaskManager: 执行具体的任务,每个TaskManager 可以有多个Task Slot,每个 Slot 可以执行一个 Task。

2025-08-24 12:36:07 366

原创 推荐系统工程架构梳理

所谓分布式,指的是计算节点之间不共享内存, 需要通过网络通信的方式交换数据。完成了样本的构建,接下来就是模型的训练,从工程视角看,简单的理解模型就是f(x1, x2) = ax1 + bx2 + c,其中x1,x2是特征,a、b、c是模型参数,模型训练就是找全局最优abc模型参数的一个过程。Spark 采取简单直接的数据并行的方法解决模型并行训练的问题,但Spark MLlib的并行梯度下降方法是同步阻断式的,且模型参数需通过全局广播的形式发送到各节点,因此Spark 的并行梯度下降过程是相对低效的。

2025-08-24 12:35:23 955

原创 高级一点点的数据结构梳理

B树中一个节点的子节点数目的最大值,用m表示,假如最大值为4,则为4阶,如图尽管红黑树是一种高效的自平衡二叉查找树,适用于内存中的数据结构,但在 大规模数据存储 和 外部存储设备(如硬盘、SSD)中,B树 有着明显的优势,尤其是在减少 磁盘I/O、降低树的高度和提升性能方面。B树设计的核心是通过更大的节点和减少树的高度来减少磁盘访问次数,因此它在 数据库索引 和 文件系统 中仍然不可或缺。红黑树:适用于内存中数据,操作简单,适合小规模数据。

2025-08-24 12:33:14 268

原创 为什么说B+树是磁盘友好的?

在B+树中,非叶子节点通常不保存数据,它们仅用于保存索引信息(键值)以指导搜索路径。数据(或记录的完整信息)只存储在叶子节点中。

2025-08-24 12:32:27 511

原创 openAi prompt格式

在大语言模型中,通常涉及到三种角色:用户(user)、助手(assistant)和系统(system)openai提出的。助手通常具有自然语言处理能力,能够理解用户的输入,并根据输入提供相应的反馈、建议或执行操作,是模型生成响应的地方。用户通过输入文本、语音或其他形式与系统进行沟通,提出问题、请求信息或执行操作。助手是一种程序或系统组件,设计用来协助用户完成特定的任务、获取信息或提供服务。用户是指与系统进行交互的个体或实体,通常是真实的人类用户或其他系统。指示模型扮演特定角色(例如,老师、顾问等)。

2025-08-24 11:23:09 406

原创 ai workflow和ai agent之间的关系

当 AI Agent 需要完成一个多步骤、标准化的任务时,可以调用内部的AI Workflow来执行流程化操作。当 Workflow 的某个步骤需要动态决策或复杂交互时,可以调用 AI Agent 来完成该步骤。Agent 返回评估结果(“高风险”/“低风险”),Workflow 根据结果决定是否进入人工复核。Agent 理解意图 → 触发 Workflow 执行退货流程 → Agent 动态回复用户进度。Workflow 自动执行到第2步时,调用 AI Agent(如LLM模型)分析用户信用风险。

2025-08-24 11:22:07 342

原创 MCP总结

Client(客户端):当 Claude 模型决定需要访问你的文件系统时,Host 中内置的 MCP Client 会被激活。2024年11月开源。Host(主机):Claude Desktop 作为 Host,负责接收你的提问并与 Claude 模型交互。它负责执行实际的文件扫描操作,访问你的桌面目录,并返回找到的文档列表。Resources(资源):类似文件的数据,可以被客户端读取(如 API 响应或文件内容)Tools(工具):可以被LLM调用的函数(需要用户批准)

2025-08-24 11:20:42 250

原创 prompt engineering总结

【代码】prompt engineering学习。

2025-08-24 11:12:35 337

原创 LLM Powered Autonomous Agents论文学习

这个角色由大语言模型承担,能够为未来的试验提供宝贵的反馈。自我反思模型利用奖励信号、当前轨迹和其持久记忆生成具体且相关的反馈,并存储在记忆组件中。总的来说,自我反思的关键步骤是a)定义任务,b)生成轨迹,c)评估,d)执行自我反思,e)生成下一条轨迹。我们可以在工具的注释中写明函数的功能以及函数的入参和出参,并可将多个函数和大模型进行绑定,这样,大模型在接收到用户的输入时,可以在输出中判断调用哪个函数,提取出函数的入参是什么。根据人物的不同,使用不同的奖励函数(决策任务使用LLM和基于规则的启发式奖励)。

2025-08-24 11:08:38 351

原创 AI Agent RAG性能优化系列文章之二:多模态RAG

模型直接读取原始图片与文本联合计算,比如利用视觉语言模型VLM,直接生成向量,绕过复杂的OCR过程,减少两次转换造成的语义衰减。OCR是提取图片中的文字,图像描述生成是通过LLM生成一段描述图片的文字。高,在标准数据集上表现出色,如 MS COCO、Flickr30K 等。高,可在 CPU、GPU 及边缘设备上部署,适配多种框架。较低,基础版本模型参数量相对较小,可量化运行。很高,大型语言模型和多模态处理消耗大量资源。复杂,多任务训练架构,融合多种学习目标。MIT 许可,可商业使用,限制较少。

2025-08-24 11:05:30 559

原创 AI Agent RAG性能优化系列文章之一:智能分块

语义杂揉不利于任务检索:长文档中各个片段的语义之前可能存在较大的差异,如果当成一个整体来做知识检索会存在语义的杂揉,应当将长文档切分成更多的小块,促使每个小块内部表意一致,块之间表意存在多样性,从而更充分的发挥知识检索的作用。都有其处理文本的长度限制。为了有效处理超出这些限制的长文本,我们需要进行文本分块。

2025-08-24 11:04:34 277

原创 Ragas评估指标详解

字段名类型说明questionstr用户的查询问题,RAG 系统的输入。answerstr系统(或 LLM)根据 context 返回的答案,RAG 的输出。contextsList[str]检索到的文本片段列表,用于辅助生成答案。每个字符串为一段上下文。str或List[str]参考答案(也称为 gold answer),用于衡量生成答案的正确性。可以是单个字符串,也可以是多个字符串组成的列表(如果存在多个正确答案)。

2025-08-24 10:59:50 482

原创 OpenManus源码分析与实践

它提供了Agent集合的管理、主要Agent的指定以及流程执行的基础框架。通过分析其架构和实现,我们可以看到,现代智能体技术的核心在于工具调用、多步骤规划和提示词工程,而这些OpenManus都已经实现。BrowserUseTool():使用browser_use提供的浏览器工具,打开、浏览和使用网页,让OpenManus具备了与网页交互的能力,这是现代智能体的关键功能之一。OpenManus的流程是一个比较典型的ReAct的Agent模式,中间Step()的部分就是Agent Loop的过程。

2025-08-24 10:56:59 665

【人工智能评测】AI Agent BenchMark评测框架综述:构建与评估智能体网络任务执行能力的综合性框架

内容概要:本文综述了多个AI Agent评测框架,旨在评估智能体在不同任务中的表现。WebArena构建了高度逼真、可复现的智能体命令和控制环境,涵盖电子商务、社交论坛、协作软件开发和内容管理四大领域,强调任务完成的功能正确性。AgentBench由清华大学开发,从多个维度评估智能体能力,如操作系统操作、数据库操作、知识图谱查询等。GAIA是Meta AI推出的针对通用人工智能助手的基准测试,提供全面的评估标准。ToolBench通过对LLaMA的微调,开发了ToolLLaMA,并引入了高效的机器自动评估系统ToolEval。HLE是由Safety for AI和Scale AI推出的大模型评测基准,旨在克服现有评测基准的“评测饱和”现象,成为大模型闭卷学术评测的终极考验。BrowseComp是OpenAI构建的AI Agent网络浏览能力评估基准,包含1266个复杂问题,涵盖多个领域,验证了Deep Research模型在网络浏览任务中的卓越表现。GPQA测试模型的问答能力,涵盖事实性问题和逻辑推理问题。MMLU是Google Research提出的大规模多任务语言理解测试,涵盖多个知识领域。SWE-bench评估AI系统解决GitHub问题的能力,基于真实软件工程任务,提供多种数据集和评估工具。 适合人群:对AI评测框架感兴趣的科研人员、工程师及开发者。 使用场景及目标:①研究和开发更先进的AI智能体;②评估智能体在不同任务中的表现;③推动AI技术在实际应用场景中的进步。 其他说明:文中提到的多个评测框架各有侧重,如WebArena关注网络任务执行,AgentBench覆盖多维度智能体能力,GAIA专注于通用人工智能助手,ToolBench提供高效的自动评估,HLE挑战大模型的尖端知识处理能力,BrowseComp测试网络浏览能力,GPQA评估问答能力,MMLU测试多任务语言理解,SWE-bench则聚焦于软件工程任务。这些框架共同推动了AI技术的发展和应用。

2025-08-24

AI Agent三代RAG技术综述与优化方法:涵盖分块、数据源、Embedding及多语言重排等全面提升检索与生成模型性能

内容概要:本文详细介绍了AI Agent三代RAG(Retrieval-Augmented Generation)的发展历程及其优化方法。第一代RAG包括Naive RAG和Advanced RAG,主要优化了分块能力、数据源、Embedding模型、多语言重排序、Query改写、引入规划能力、上下文建设和生成模型微调等方面,旨在提升检索精度和生成模型响应质量。第二代RAG即GraphRAG,通过图结构表示知识,支持复杂的逻辑推理和上下文分析,适用于医学诊断、法律分析等复杂任务,同时优化了Embedding模型、支持增量更新数据源并升级了GraphRAG范式。第三代RAG即Agentic RAG,具有自主决策、多步推理、自适应学习和减少幻觉等优点,优化了LLM选型、Prompt设计和范式选择,提高了检索结果的相关性和准确性。; 适合人群:对AI Agent RAG技术感兴趣的开发者、研究人员以及有一定机器学习基础的技术人员。; 使用场景及目标:①了解三代RAG技术的发展历程和核心优化方法;②掌握不同代际RAG的特点和应用场景;③探索如何通过优化分块、数据源、Embedding模型、Query改写、上下文建设等方面提升RAG系统的性能;④学习如何在实际项目中应用Agentic RAG,提高检索结果的相关性和生成模型的准确性。; 阅读建议:本文内容详尽,涵盖了大量的技术细节和优化方法。建议读者在阅读时重点关注每一代RAG的关键优化点和技术改进,结合实际应用场景进行理解,并尝试在实践中应用这些优化方法,以提升系统的性能和效果。

2025-08-24

【人工智能领域】AI Agent Workflow工作流范式综述:Prompt chaining、Routing、Parallelization等模式的应用与优化

内容概要:本文介绍了五种AI Agent Workflow工作流范式:提示链范式,通过将任务分解为一系列步骤,每次LLM调用处理前一次的输出,适用于可分解为固定子任务的情况;路由模式,对输入分类并定向到专门的后续任务,适合存在明显类别且需单独处理的任务;并行化范式,包括分段和投票两种形式,分别用于提高任务执行速度和结果置信度;协调器-工作者模式,由中央协调者动态分解任务并委派给工作者,适合无法预测子任务的复杂任务;评估者-优化者模式,通过一个LLM生成响应,另一个LLM提供评估和反馈,适用于有明确评估标准且迭代优化能提升价值的任务。; 适合人群:对AI Agent Workflow有兴趣的研究人员、工程师以及希望深入了解大型语言模型工作流设计和应用的从业者。; 使用场景及目标:①通过提示链范式,将复杂任务简化为更小、更易管理的部分;②利用路由模式,实现任务的高效分类和处理;③借助并行化范式,加速任务执行或增加结果多样性;④采用协调器-工作者模式,处理复杂且不可预见的任务;⑤运用评估者-优化者模式,通过迭代优化提高任务完成质量。; 其他说明:以上范式均旨在提高LLM在不同应用场景下的效率和准确性,开发者可以根据实际需求选择合适的工作流范式,以优化AI系统的表现。

2025-08-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除