- 博客(1179)
- 收藏
- 关注
原创 264页 Agent 综述!MetaGPT、Mila、斯坦福、耶鲁、谷歌半年共同撰写
2025 年,Agent 的热度持续升高,无论是 MCP 协议的普及让整个 Agent 的生态被打开,还是 A2A 协议的发布,让我们对未来多 Agents 的生态充满了期待。但目前大部分 Agent 仅是基于 LLM 的简单延伸,距离真正的通用的智能尚有距离,在目前的设计下,面对复杂的真实世界,Agent 面临着推理规划、长期记忆、自主学习以及安全对齐等核心能力不足的问题。为了明确定义我们距离通用智能的差距,以此来构建下一代 Agent,研究来自。
2025-04-27 11:12:31
566
原创 初探分布式Agent系统架构,及全新AutoGen框架下的分布式Agent Demo体验
*以上三种方案各有侧重:AutoGen 框架提供*一体化的解决方案*,适合于快速构建同构环境下的多Agent协作;A2A 协议致力于成为*异构Agent间的通用语言*,为跨平台、多供应商的Agent互操作提供标准,强调开放生态下的协作;经典RPC/MCP方法则是**沿用微服务思想**的直观做法,依赖成熟技术栈,但对开发者要求较高,需要自行处理大量协作细节。实际应用中,这三种方法并非互斥:例如我们可以在一个AutoGen系统内部实现多Agent对话协作,同时通过RPC调用外部的专业服务Agent。
2025-04-27 11:11:23
319
原创 DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1
DianJin-R1是一个针对金融领域的推理增强框架,旨在解决大语言模型在该领域的推理挑战。该框架使用DianJin-R1Data数据集,结合CFLUE、FinQA和中国合规检查(CCC)数据,涵盖多样的金融推理场景。模型DianJin-R1-7B和DianJin-R1-32B基于Qwen2.5进行微调,采用结构化格式生成推理步骤和最终答案。通过应用群体相对策略优化(GRPO)强化学习,模型获得了结构化输出和答案正确性的双重奖励信号。
2025-04-27 11:09:37
606
原创 图解AI三大核心技术:RAG、大模型、智能体
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
2025-04-26 10:45:00
885
原创 RAG超图革命!graphRAG进入群聊时代!
为了让大家更直观地感受"超图如何表示多元关系"以及"如何用这种结构来检索知识",我们先设计一个生活化的比喻场景。
2025-04-25 20:40:40
796
原创 Dify 与 MCP:开启智能体应用开发新征程
本文更偏向于实战,我会讲解如何通过 Dify 调用 1Panel 的 MCP Server,至于 MCP 的具体组成、MCP 各部分的含义本文将不会涉及或只在必要的地方予以说明。本文选择 1Panel MCP Server 作为示例单纯是因为其操作简单、易于使用,同时我个人管理服务器使用的也是 1Panel。
2025-04-25 20:36:55
551
原创 DeepSeek基础:MoE概念详解
在有关DeepSeek的介绍中我们经常会看到MoE的概念,**混合专家(Mixture of Experts, MoE)是一种通过分工协作提升模型性能的技术,其核心思想类似于“专业团队合作”“分而治之”的思想。**那为什么需要MoE呢?MoE的核心思想、技术原理、创新优势及应用场景有哪些?本文将从以下方面介绍:MoE产生背景MoE核心思想MoE核心技术细节MoE创新优势与挑战MoE应用场景与价值**:**传统神经网络(如Transformer)通过堆叠层数提升性能,但参数量与计算成本呈指数级增长。
2025-04-24 10:20:31
810
原创 Alibaba首创:多模态混合检索+多智能体RAG
为了将视觉检索与纯文本检索结合起来,Alibaba提出了ViDoRAG,一个针对视觉文档复杂推理的新型多智能体RAG框架。检索能力不足推理能力不足训练数据的不足收集数据集查询创建质量审查多模态精炼最终构建的数据集样式自适应召回与高斯混合模型(Gaussian Mixture Model, GMM)视觉与文本混合检索从粗到细的推理过程,包括三个智能体:搜索智能体(Seeker Agent)检查智能体(Inspector Agent)回答智能体(Answer Agent)
2025-04-24 10:19:02
333
原创 那么多接入DeepSeek的,终于有一家与众不同了!
这篇文章提到的方法只是涉及到标题生成和图片生成,实际上扣子平台的智能体覆盖的范围非常广泛,它可以写作文案、生成故事、执行代码、语音播报… 还可以联网查询天气、股市、时事新闻、汇率… 你不需要有任何编程基础,就可以轻松创建一个符合自己需要的智能体。如今扣子又独家支持 Deepseek Functiocall 能力,相当于让DeepSeek可以调用海量的插件,极大地拓展了智能体的能力边界,现在能限制你的,只有你的想象力了。
2025-04-24 10:17:32
915
原创 DeepSeek-V3-0324 本地部署,vLLM和SGLang的方法
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。天道酬勤,你越努力,就会成为越优秀的自己。
2025-04-23 20:21:29
690
原创 AAAI 25|LightPROF:基于知识图谱的大语言模型轻量级推理框架
随着更多大语言模型(LLM)的出现,其持续提升的性能为自然语言处理(NLP)领域带来了重大创新。在庞大数据量和海量参数下展现的"突现能力",使LLM在复杂零样本任务中表现卓越。尽管效果显著,LLM在知识密集型任务中仍面临挑战:由于缺乏任务特定的先验知识和理解能力,以及模型训练的高成本耗时性,导致知识库持续更新困难。为解决这些问题,研究者提出通过知识图谱(KG)为LLM提供可靠且持续更新的知识库,以支持更精准可解释的推理。KGQA作为典型的知识密集型任务,现有工作探索了多种LLM与KG协同推理方法。
2025-04-23 20:20:05
247
原创 为什么 AI Agent 需要自己的浏览器?
• 可预见的未来,Scraping 依然会是长期存在的需求。• 互联网本质上是不确定的,但我们目前仍在用确定性的工具来应对它。• 浏览器自动化这个基础组件长期以来缺乏足够的投资,而 AI 应用在未来很多年都将高度依赖这一能力。• 市场上存在大量 AI 和非 AI 的使用场景,这为新兴创业公司提供了难得的颠覆机会。• 能够把握住这个机会的创始人,通常具有深厚的 headless browser 技术背景、开发者工具经验,以及对 AI 领域的热情与洞察力。
2025-04-22 11:21:45
635
原创 GitHub开源最强MCP客户端指南!手把手教你玩转AI交互!
这几天被MCP刷屏了,人都刷麻了,虽然之前说Manus 的核心底层是MCP ,但是我并没有去研究MCP,因为MCP 的服务好像用不到,这几天看到一个GitHub 的MCP-Server,是不是我后面可以一键找GitHub项目?今天找了一个MCP 客户端项目什么是MCP客户端?Model Context Protocol (MCP)客户端是能够与MCP服务器交互的应用程序或工具,它们使AI模型能够安全地访问和操作各种外部资源和服务。MCP客户端作为AI模型与外部世界之间的桥梁,极大地扩展了AI的能力边界。
2025-04-22 11:19:30
848
原创 VLLM+ray多节点部署大模型
A机器上有4张卡,B机器上有4张卡,我只用A机器上的1张卡和B机器上的1张卡。(官方的样例是使用节点的所有卡,这里两个节点各选一张是为了能够学习和验证分布式部署,其他的卡主要是已经部署了服务,不方便让其他人把服务下了。。)这里的步骤将官方的脚本进行拆解,按步骤分步执行。环境:显卡型号:v100cuda版本:12.2vllm镜像:0.7.3大模型:qwen-coder-32b-gptq因为涉及多个节点,这里需要指定网卡来通信。一般网卡众多,本方案是没有高速互联使用pcie的方案。
2025-04-22 10:53:23
957
原创 Agentic AI:8个开源框架对比-2025更新
我们都听说过和,但你知道吗,除此之外还有几十个开源的代理框架 - 其中很多都是在去年发布的。简单测试了一些比较流行的框架,以便了解它们的工作方式以及开始使用的难易程度。下文就来进行详细的对比我们将重点关注和。我们还会把它们和以及做个比较。我们将看看一个框架实际上是做什么的,不同的设计选择,它们之间有何不同,以及一些关于它们背后的思想流派的信息。
2025-04-21 20:12:50
885
原创 RagFlow文档解析过程分析
RagFlow在文档切片过程中提供了丰富的配置项供用户进行选择,几乎涵盖了目前RAG领域的各种最新的研究成果,特别是利用一系列的深度学习模型在文档解析时引入布局识别,表格结构解析等专有技术,有效提供了文档内容获取的质量,无愧于开源RAG领域的SOTA。不过也因为配置项太多,大家在使用时也需要根据文档的内容和形式仔细进行选择,盲目配置不但导致解析过程极其漫长,实际效果可能也并不会,希望本文能帮助大家更好的进行配置和使用。
2025-04-21 20:11:50
736
原创 HiRAG:基于层级知识索引和检索的高精度RAG
(如“DATA MINING”概括“BIG DATA”和“RECOMMENDATION SYSTEM”),摘要实体集合是所有聚类生成实体的并集。使用。
2025-04-21 20:09:07
1019
原创 开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG
OpenDocVQA任务的目标是给定一个文档图像集合和一个问题,通过找到相关的文档图像来输出答案。
2025-04-20 10:45:00
959
原创 我对多Agent平台的进一步升级和落地范式
此只为针对 AIP 开源多Agent平台,且为临时手稿,带有口语化,仅以参考为主。在本地化的沟通过程中,我们遇到了一系列实际问题,并在此基础上进行了总结与产品能力的提升。鉴于当前在相关领域缺乏明确的范式可供参考,本文旨在提出适用于下一步的落地范式。整个升级过程紧紧围绕 “聚焦” 二字展开,在于实现 ToB 业务的拓展以及向 ToG 场景化的延伸。
2025-04-18 19:53:31
823
原创 讨论|谁能统一Agent 接口?MCP 对比 A2A 、Function Calling
去年底MCP的热度还没消散,新的Agent接口标准A2A又出来了。就在上周,Google在Cloud Next大会上推出了Agent2Agent(A2A)开放协议。通俗来说,A2A就是帮助Agent之间进行通信的开放标准。一个背后站着Anthropic,一个背后站着谷歌,再加上一个2023年Open AI推出来的Function Calling ,可以说,是个巨头,都想在Agent生态里分一杯羹。
2025-04-17 20:21:15
741
原创 LLM Reasoning能力最近大跃进?不,都是「水分」!
近几年,ChatGPT、Claude等大模型的「数学解题」「逻辑推理」能力突飞猛进,各大实验室争相发布「突破性成果」。!论文:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility链接:https://arxiv.org/pdf/2504.07086更夸张的是,许多论文评测时只用(如AIME’24)。这种情况下,多答对1题就能让正确率提升3%,导致结果毫无说服力。
2025-04-17 20:19:11
551
原创 遥感论文 | Arxiv | RSRefSeg:基于SAM和CLIP的1.2B遥感语义分割基础模型,代码已开源!
引用式遥感图像分割现有研究通常难以在细粒度语义概念之间建立稳健的对齐关系,导致文本和视觉信息之间的表示不一致。
2025-04-17 20:18:18
953
原创 DeepSeek新论文:让AI评判变得更智能、更通用,效率提升不靠堆硬件!
你有没有想过,当AI评价其他AI的回答时,需要什么样的能力?DeepSeek最新研究告诉我们,不必再一味堆模型参数,一种全新的推理时扩展技术正在改变游戏规则。当我们谈论大语言模型(LLM)训练时,强化学习(RL)已成为必不可少的环节。而在强化学习过程中,**奖励建模(Reward Modeling,简称RM)**是核心组件,它决定了AI模型如何评判响应的好坏。
2025-04-17 20:16:44
902
原创 Playwright专家级面试攻坚指南:从架构设计到效能提升的深度实践
通过本次“专家级面试攻坚指南”,我们围绕 架构设计、高级应用、效能提升 三个维度对Playwright进行了更深层次的拆解——既包含理论原理的解读,也包含大量的实践示例。深挖Playwright原理:自动等待机制、WebSocket通信等;性能与效率优化:浏览器上下文隔离、分布式测试;架构设计能力:可维护的、组件化模式;丰富的场景应对:网络拦截、可视化回归、多浏览器并行等。
2025-04-16 20:24:24
561
原创 从 Llama 1 到 Llama 4:Llama家族全解
Llama模型由Meta公司推出,自2023年首次发布以来,迅速成为自然语言处理领域的热门研究对象。Llama 1凭借其创新的架构和出色的性能,在多项自然语言处理任务中取得了优异成绩,引起了广泛关注。随后,Meta公司不断对Llama模型进行优化和升级,相继推出了Llama 2、Llama 3和Llama 4版本。每个版本都在前一版本的基础上进行了改进,从架构调整到参数优化,从训练方法改进到应用场景拓展,Llama模型在性能、效率和适应性等方面都取得了显著进步。
2025-04-16 20:20:47
816
原创 Domaino1s: 基于LLM的可解释的股票推荐方法
当前的LLM在高风险领域(如金融投资和法律问答)中生成简短答案,缺乏推理过程和解释,降低用户决策信心。原始的链式推理(CoT)方法缺乏自我纠错机制。本文提出Domaino1s,通过监督微调和树搜索增强LLM在领域任务中的推理能力。构建了CoT-stock2k和CoT-legal-2k数据集,以激活领域特定的推理步骤。提出选择性树探索(Selective Tree Exploration),自发探索解决方案空间,采样最佳推理路径。引入PROOF-Score评估指标,补充传统准确性指标,提供更丰富的评估维度。
2025-04-15 11:46:19
984
原创 Synthetic-Data-Zero-RL:让 RL 左脚踩右脚
合理的prompt生成+reasoning-model蒸馏+答案投票(推理模型的投票能力都较强),可以为rl提供更多的答案可验证数据,进一步这些数据亦可用于pretrain阶段,提升数据的覆盖率,以及提供反事实数据(如 加入 不可解的问题等等)。
2025-04-15 11:45:05
1021
原创 算法面试80%会问:大模型评估指标全解析(建议收藏)
因为最近公司在招算法工程师,面了几轮后发现面对"如何评估大模型性能"这个问题,很多同学往往只能说出几个指标名称,但说不清楚具体计算方法和适用场景。今天我就结合实际项目经验,系统讲解几个核心评估指标。大模型的评估贯穿了从研发到部署的全生命周期:训练阶段:使用交叉熵等损失函数指导模型优化方向生成评估:通过BLEU、ROUGE等指标量化生成内容质量能力测试:利用GLUE、MMLU等标准化基准评估多维度能力实战对比:在竞技场上与其他模型直接PK,检验实际效果熵最初源自物理学,用于描述系统无序程度。HX。
2025-04-15 11:44:07
1034
原创 (CVPR 2025)两阶段适配让CLIP“看懂异常”:AA-CLIP构建异常感知空间
题目:AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP论文地址:https://arxiv.org/pdf/2503.06661异常检测(Anomaly Detection, AD)旨在识别图像中的异常区域,广泛应用于缺陷检测和病灶识别等任务。虽然 CLIP 模型在零样本异常检测任务中表现出良好的泛化能力,但其**“异常无感”**的本质限制了其在区分正常与异常特征方面的判别力。为了解决这一问题,我们提出了。
2025-04-14 20:15:23
680
原创 StockAgent:基于LLM的多智能体股票交易框架
本文研究开发了名为StockAgent的多智能体AI系统,利用大型语言模型(LLMs)模拟投资者在真实股市中的交易行为。StockAgent评估外部因素(如宏观经济、政策变化、公司基本面和全球事件)对投资者交易的影响,分析交易行为和盈利效果。该系统避免了现有交易模拟系统中的测试集泄漏问题,确保模型不利用与测试数据相关的先前知识。实验结果显示关键外部因素对股市交易的影响,包括交易行为和股价波动规则。研究提供了基于LLM的投资建议和股票推荐的有价值见解。
2025-04-14 20:14:28
827
原创 多模态RAG及多模态R1推理中如何为不同的视觉数据生成描述Caption?OMNICAPTIONER实现思路
目前多模态模型其实走的是缝合路线,而大模型理解图片等模态,其实大多都是走的caption的路线,caption起来了一个桥梁的作用,尤其是在多模态RAG场景中,。那么就可以搞个框架,例如,最近的工作《
2025-04-14 20:12:59
996
原创 Fin-R1:金融领域专用推理大语言模型,7B参数比肩671B满血Deepseek R1
Fin-R1是一个专为金融推理设计的7亿参数的语言模型,旨在解决金融数据碎片化、推理逻辑不可控和商业泛化能力弱等问题。通过构建包含60,091个完整思维链的高质量数据集Fin-R1-Data,并进行监督微调和基于强化学习的训练,显著提升了模型的推理能力。Fin-R1在多个金融业务场景的权威基准测试中表现优异,平均得分75.2,位列第二,超越其他大型推理LLM。在ConvFinQA和FinQA等金融推理任务中,Fin-R1分别取得85.0和76.0的领先成绩。
2025-04-13 10:45:00
1430
原创 (CVPR 2025)你以为SSL不行,其实是“数据太杂”了!这招统一框架解千愁
题目:A Unified Framework for Heterogeneous Semi-supervised Learning论文地址:https://arxiv.org/pdf/2503.00286在本研究中,我们引入了一种新的问题设定,称为异构半监督学习(Heterogeneous Semi-Supervised Learning, HSSL)。该设定结合了半监督学习(SSL)与无监督域自适应(UDA)的任务特点,扩展了标准半监督学习,以适应异构训练数据的挑战。
2025-04-12 19:41:47
955
原创 2025年必须掌握的LLM训练三阶段
以上就是大语言模型训练的三大阶段。如今,DeepSeek等公司已开始实现与OpenAI比肩的性能,同时开源其训练方法。这意味着我们可以探索如何调整训练流程的各个环节,从而彻底革新大语言模型的表现。
2025-04-12 19:40:34
658
原创 【前沿解读】CVPR2025 | SAM赋能多模态图像融合:让每一滴语义信息都发挥价值
在这次研究中,我们探索了如何利用语义信息来改进红外与可见光图像融合的效果,并通过双层蒸馏方案来解决计算效率问题。这项工作为红外与可见光图像融合领域提供了一个值得探索的新方向,我们期待未来能有更多研究者加入,共同推动这一领域的发展。
2025-04-11 15:32:49
737
原创 多模态Reasoning新综述!从训练优化和实时推理角度全面总结
人类的聪明之处在于能“分步骤解决问题”。比如算一道数学题,我们会先列公式、再分步计算,最后验证结果。而传统的AI模型更像“直觉派选手”,直接输出答案,但面对复杂任务容易出错。论文:Why Reasoning Matters?地址:https://arxiv.org/pdf/2504.03151这篇论文指出,(比如分步骤思考、自我修正)是提升其能力的关键。例如,Chain-of-Thought(思维链)技术让模型像学生写作业一样展示解题过程,不仅提高答案准确性,还能让人类理解模型的“脑回路”。
2025-04-11 15:31:46
583
原创 企业数字化转型路径解析:六大核心转型方向
随着数字化转型进入深水区,许多企业在战略规划时面临认知瓶颈。本文系统梳理六大转型维度,为企业提供全景式参考框架。作者在《数字蝶变——企业数字化转型之道》(2019年电子工业出版社)中提出的"数字技术闭环"理论,为理解当前转型困局提供了重要视角。
2025-04-11 15:31:02
876
原创 【ICLR 2025】MLLM视觉Attention重分配!VAR方法来了!无需训练提升多模态能力!
大型多模态模型(LMMs)通过利用Transformer解码器中文本和视觉标记之间的注意力机制来“查看”图像。理想情况下,这些模型应聚焦于与文本标记相关的关键视觉信息。然而,近期研究发现,大型多模态模型有一种异常的倾向,即持续为特定视觉标记分配高注意力权重,即便这些标记与相应文本无关。在本研究中,我们探究了这些无关视觉标记出现背后的特性,并考察了它们的特征。我们的研究结果表明,这种行为是由于某些隐藏状态维度的大规模激活所致,这与语言模型中发现的注意力陷阱类似。因此,我们将这一现象称为视觉注意力陷阱。
2025-04-10 10:06:01
380
原创 大模型入门:大模型发展简史及思考
第3章 爆发期:从Transformer到DeepSeekTransformer是自然语言处理(NLP)和计算机视觉(CV)等领域的革命性模型架构。其核心创新在于完全依赖自注意力(Self-Attention),摒弃了传统循环神经网络(RNN)和卷积神经网络(CNN)的局限,实现了高效的并行计算和长程依赖捕捉。Transformer凭借其并行化、全局感知和模块化设计,为后面的大语言模型的爆发式发展奠定了决定性基础,逐步成为AI领域的通用架构。
2025-04-10 10:05:04
1094
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人