自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(921)
  • 收藏
  • 关注

原创 DrugAgent:基于多智能体的药物靶点相互作用预测

ATOMICA 是一种几何深度学习模型,它学习原子级表征,统一了蛋白质、核酸、小分子、离子和脂质等多种生物分子交互的框架。该模型利用超过 200 万个交互复合物进行自监督去噪训练,学习原子、化学块和界面层级的分层嵌入,并将其泛化到不同分子模态。ATOMICA 生成特定模态的交互组网络 (ATOMICANET),基于交互界面的相似性连接蛋白质。这些网络揭示了共享的疾病通路,并有助于预测疾病相关蛋白。例如,它在基于脂质的网络中检测到与哮喘相关的钠通道,在基于离子的网络中检测到与白血病相关的锌指结构。

2025-04-24 11:26:47 504

原创 MDTeamGPT:一种基于大模型的自进化多学科团队医疗咨询多智能体框架 - 南大、南洋理工、CMU

大型语言模型(LLMs)已在各个领域取得了显著进展。然而,在多学科团队(MDT)医疗咨询中仍存在挑战。当前研究通过角色分配、任务分解和积累医学经验来提升推理能力。MDT咨询中的多角色合作往往导致过长的对话历史。这增加了模型的认知负担,并降低了效率和准确性。一些方法仅存储治疗历史。它们不提取有效经验或反思错误。这限制了知识的泛化和系统的进化。我们提出了一种基于LLMs的多智能体MDT医疗咨询框架来解决这些问题。我们的框架采用共识聚合和残差讨论结构进行多轮咨询。

2025-04-24 11:24:39 282

原创 再看大模型幻觉排行、检测工具及多模态RAG技术范式总结

多模态RAG我们已经讲过很多了,综合来看,其核心问题有多个,即:如何有效地解析和索引多模态文档,如何实现多模态检索,如何在生成过程中整合多模态数据,以及如何评估和改进MRAG系统的性能。而截止到目前,围绕多模态RAG,已经出现了多个RAG综述,列举截止目前的4个多模态RAG综述。1、《A Survey of Multimodal Retrieval-Augmented Generation》,https://arxiv.org/pdf/2504.08748,这个最早,核心可以看看起提出了三个版本的多模态RA

2025-04-24 11:23:56 420

原创 一文搞懂MCP理论+详细代码实践(基于DeepSeek模型)

MCP是Anthropic于2024年11月发布的协议,最全面的介绍莫过于MCP官网的全部内容,以及MCP的源代码可以帮助理解,但这些内容过多,这里抽取核心内容再加上自己理解整理。

2025-04-23 20:30:47 867

原创 告别粗暴切分:入门 RAG 文本分块,从策略到优化

检索增强生成(RAG)的性能在很大程度上取决于其检索模块的质量,而文本分块(Chunking)是决定检索质量的关键前置步骤。粗暴或不恰当的分块会导致信息丢失、上下文割裂、检索效率低下等问题,严重影响 RAG 系统的最终表现。本文系统性地探讨了文本分块的核心目标与挑战,从克服上下文窗口限制、提高检索精度、维护上下文完整性等角度阐述了其重要性。接着,详细介绍了固定大小、基于句子、递归字符、基于文档结构等基础分块策略,并给出了结合 Markdown 文档结构的混合分块策略的 Python 实现。

2025-04-23 20:29:25 581

原创 检索增强生成(RAG)深度教程

有意过度检索**,即取一个相对较大的topk(比如top 50-100),然后让重排序模型来过滤掉其中不相关的内容。通过引入重排序,RAG系统可以显著提高提供给LLM的上下文质量,减少无关或次要信息对生成答案的干扰。

2025-04-22 20:07:46 924

原创 一种完全开源的多模态大模型:Open-Qwen2VL

通过实验证明,基于高效多模态大模型(MLLM)的高质量数据过滤技术和精心设计的数据混合策略,能够在计算资源有限的条件下实现高效预训练,从而开发出具有竞争力的多模态大模型。通过采用多模态序列打包技术和基于平均池化层的动态图像标记数调整,进一步提升了预训练效率。最终开发的Open - Qwen2VL模型在多个多模态基准测试中超越了部分开源的Qwen2 - VL - 2B模型,而其预训练令牌仅为Qwen2VL的0.36%。

2025-04-22 20:06:39 554

原创 FinSeer:首个股票预测 RAG 框架,准确率提高了8%

本文提出首个专为金融时间序列预测设计的检索增强生成(RAG)框架。框架包含三大创新:以1B大语言模型(StockLLM)为基础;通过LLM反馈增强的新候选选择方法;最大化查询与历史重要序列相似性的训练目标。FinSeer能够有效识别金融数据中的有意义模式,减少噪声。构建新数据集,整合金融指标与历史股价以支持评估。实验结果显示,RAG框架在BIGDATA22基准上比基线StockLLM和随机检索方法提高8%准确率,检索到更具影响力的序列。强调定制检索模型在金融预测中的重要性,为未来研究提供新框架。

2025-04-22 20:05:50 596

原创 如何用go搭建MCP服务

是一种让 AI 模型能够无缝连接到外部工具和数据源的标准化方式。想象它就像 AI 的“万能接口”,能让 AI 像用 USB 线连接设备一样,轻松调用其他程序或服务。

2025-04-21 20:28:35 556

原创 使用SpringAI实现MCP服务并与Qwen集成使用

MCP(Model Context Protocol,模型上下文协议)是一种开放协议,旨在实现 大型语言模型(LLM) 应用与外部数据源、工具和服务之间的无缝集成,类似于网络中的 HTTP 协议或邮件中的 SMTP 协议。MCP 协议通过标准化模型与外部资源的交互方式,提升 LLM 应用的功能性、灵活性和可扩展性。

2025-04-21 20:26:55 914

原创 多模态AI模型再添猛将!Liquid:字节最新开源的多模态LLM,视觉与语言统一生成!

Liquid = 一个模型通吃图像理解 + 图像生成 + 文本生成!它正在代表一种新趋势:模态打通、结构简化、能力统一。如果你对多模态 LLM、视觉问答、图文生成感兴趣,Liquid 将是不可错过的开源标杆项目!

2025-04-21 20:25:12 815

原创 大语言模型的智能体优化全面综述:背景、有参优化、无参优化、数据基准、应用、挑战

随着大语言模型(LLMs)的迅速发展,基于大语言模型的智能体已在各个领域得到广泛应用,成为自主决策和交互任务的关键。然而,目前的工作通常依赖于对基础大语言模型应用提示设计或微调策略,这在复杂的智能体相关环境中往往导致效果有限或性能欠佳。尽管大语言模型优化技术可以提升模型在许多通用任务上的表现,但它们缺乏针对智能体关键功能(如长期规划、动态环境交互和复杂决策)的专门优化。

2025-04-20 10:45:00 606

原创 一文讲透MCP的原理及实践

MCP是什么。

2025-04-19 10:45:00 888

原创 PandaAI:一个基于AI的对话式数据分析工具

PandaAI 是一个基于 Python 开发的自然语言处理和数据分析工具,支持问答式(ChatGPT)的数据分析和报告生成功能。PandaAI 提供了一个开源的框架,主要核心组件包含用于数据处理的数据准备层(Pandas)以及实现 Text2SQL 功能的自然语言接口。

2025-04-18 21:57:46 1020

原创 Cursor+MCP实现用嘴操纵数据库,太丝滑了!

通过 MCP,我让 Cursor 直接操作起了我本地的数据库。无论是数据查询,还是数据的增删改,他都无所不能。。说实话,像 DeepSeek 啊、豆包啊或者 claude 之类的大模型再牛逼,当你问他,我本地数据库里面有多少条数据,他就会显得有些爱莫能助。因为他的训练集不可能会包含你的隐私数据。这也导致了大模型在个人或企业隐私数据的瓶颈。以前,很多人直接搞个本地的大模型,然后将隐私数据投喂给大模型,来训练私有化大模型。这是常见的做法,先不说私有化部署的成本,光是微调训练的过程就不是普通人能搞定的。

2025-04-17 20:57:31 1229

原创 三步让Dify工作流秒变智能插件!MCP Server插件实操指南

通过MCP协议,我们大大简化了AI Agent编写的门槛,原来很多工作流实现的复杂操作,通过一个dify Agent+提示词+各种MCP工具,就可以把Agent培养成一个超级助手。那么,我们这样,我们本地实现的这些工作流及其能力,无需进行二次开发,可以被高效复用到别的MCP Client工具和应用场景里。今天就让我们一起来看看如何实现。(不过需要注意的是,为避免潜在的数据安全风险,官方也仅建议做私有网络环境中使用MCP Server插件)在开始前,请确保:• 已部署Dify实例。

2025-04-17 20:55:31 1094

原创 KVShare革新LLM推理!语义对齐驱动缓存命中率飙升60%,GPU能耗锐减

作者提出了KVShare方法。如图所示,该方法首先检查用户的实际请求,选择几个最相似的请求,通过基于DELTA Tree和编辑操作的运算确定最相似的请求,然后选择最相似请求的KV Cache进行计算。为确保结果的正确性,KVShare提出了KV Editor机制。通过向KV Cache添加占位符张量,将最相似请求的KV Cache语义与实际用户请求对齐。最后,通过PartialAttention的计算获得正确的LLM输出。

2025-04-17 20:53:11 289

原创 SuperRAG, 百川也开源了

强化学习用于RAG 检索增强推理六小虎-百川 开源 ReSearch,一个 RL 框架,从零开始教 LLMs 使用搜索进行推理。简单概括,ReSearch框架,它不是教AI怎么思考或怎么搜索,而是让AI自己学会何时该搜索、搜什么、如何利用搜索结果继续推理。整体没有太大新的地方,先思考问题 -> 决定需要查询什么 -> 获取搜索结果 -> 基于搜索结果继续思考或调整查询方向reward 规则如下,训练数据使用musique,一个为多跳问答设计的19938个样本。grpo训练。所以,就这?嗯, 就这。

2025-04-17 20:51:33 748

原创 文本向量化与语义保留:Embedding技术的核心原理与实现路径

Embedding(嵌入)是一种将离散符号(如单词、句子)映射到连续低维向量空间的技术,其核心目标是通过数学建模捕捉文本的语义信息。传统文本处理方法(如One-Hot编码)仅以二进制形式表示文本,导致高维稀疏且缺乏语义关联。向量空间模型与分布式表示*Embedding基于向量空间模型(Vector Space Model, VSM),将文本映射到几何空间中。每个词被表示为该空间中的一个点,其坐标由语义特征决定。语义保留的数学机制*文本预处理与词嵌入*上下文建模与聚合方法*典型模型对比*

2025-04-16 20:34:15 803

原创 LangChain + 模型上下文协议(MCP):AI 智能体 Demo

是由 Anthropic 推出的开源协议,旨在为大型语言模型(LLM)提供安全、可解释、可扩展的外部数据与工具集成方案。

2025-04-16 20:33:35 1083

原创 4个问题 + 1个Demo:彻底搞懂谷歌的新玩意Agent2Agent(A2A)

这不很多人MCP还没拎得清楚,A2A又来了,关键这俩长的还有点像,今天就来仔细说说这个谷歌的新玩意 - Agent2Agent(A2A)协议。为什么会诞生A2A?让我们假想一个简单的场景:你开发了某个Agent(比如Web自动化机器人或AI研究员),现在我在开发一个新的Agent系统,希望可以把部分任务交给你的Agent来完成,我们会怎么做呢?

2025-04-15 12:03:26 990

原创 DeepSeek+Dify 高级应用,构建工作流

DeepSeek+Dify 构建知识库的流程,通过 Dify 提供的分段和检索,可以将导入的文件生成知识库供 DeepSeek 进行查询和引用。这次我们来看看 Dify 的高级功能,通过知识库等功能实现更复杂的工作流。工作流通过将复杂的任务分解成较小的步骤(节点)降低系统复杂度,减少了对提示词技术和模型推理能力的依赖,提高了 LLM 应用面向复杂任务的性能,提升了系统的可解释性、稳定性和容错性。今天我们会以一个 Chatflow 的例子来一步步看工作流是如何构建使用的。

2025-04-15 11:59:07 699

原创 深入分析 Llama 4 最新架构

Llama系列自Meta AI推出以来,以其高效性、开源性和不错的表现在学术界和工业界广受关注。从Llama 1到Llama 3,我们见证了模型在规模、训练数据质量和应用场景上的持续优化。而Llama 4的到来,标志着这一系列在多模态能力和计算效率上的又一次飞跃。当然Llama再怎么蹦跶,目前在中文领域还难以超过deepseek。: 激活参数170亿,总参数109B,16个专家,支持高达1000万(10M)token的超长上下文窗口。可在INT4模式下在单个H100 GPU上部署。

2025-04-15 11:58:08 928

原创 NPJ | 学医为什么还要学习人工智能,不能找人做么?这篇论文或许是一个不错的参考!

怎么说呢,**这项研究在各个阶段所使用的技术点让人有一种为了使用而使用的感觉,全面的有点怪怪的。**就比如说,该研究用了一大堆特征选择算法,这合理么?同时,该研究基于监督学习构建了深度学习模型,然后又重新搞了一堆传统机器学习算法替代深度学习的分类器,也是非常让人迷惑。npj Precision Oncology的这篇文章说明即便我们找人帮忙做分析,自己要学习一些人工智能的知识。不求学会编程,但一定要了解什么方法用来做什么!

2025-04-14 20:35:44 553

原创 大模型在金融数据智能查询领域的应用研究

近年来,随着数字金融的迅猛发展,金融数据的规模总量呈爆炸式增长态势,其复杂性和多样性也对数据的查询、处理和分析过程带来前所未有的挑战,传统的人工查询和基础搜索方式已难以满足金融机构对数据高效、准确获取的需求。在此背景下,大模型以其强大的数据处理能力和深度学习能力,为金融数据智能查询提供了新的解决方案。针对该领域,本文深入探讨了大模型在金融数据智能查询方面的应用优势,并在详细阐述智能查询大模型构建过程的基础上,总结梳理了其在实际场景中的应用成效。

2025-04-14 20:34:29 724

原创 5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

今早,谷歌Deep Research迎来史上最强升级,正式搭载了Gemini 2.5 Pro全球顶尖模型。谷歌CEO劈柴哥转发力挺。首席科学家、Gemini负责人Jeff Dean也出来为Deep Research站台。可见谷歌内部对这款产品的重视程度。相较于OpenAI DR,谷歌在整体性能上飙升超40%。此外,在指令遵循、全面性、完整性、写作质量方面,谷歌Deep Research性能跃升很大。在内部测试中,谷歌DR生成的报告深受评估者青睐,程度远超其他领先DR工具2倍多。

2025-04-14 20:33:08 959

原创 如何利用 DeepSeek 搭建智慧茶园管理平台

DeepSeek 在自然语言处理、机器学习以及图像识别等人工智能核心领域成绩斐然。其先进的算法架构能够高效处理和分析海量数据,为茶园管理决策提供精准的数据依据。特别是在图像识别方面,DeepSeek 展现出卓越的识别能力,能够精准、快速地识别茶树病虫害,为茶园的病虫害防治提供关键支持。搭建智慧茶园管理平台,首要任务是构建全面、高效的数据采集与整合体系。

2025-04-13 10:45:00 587

原创 28.5K star!你的全栈AI大脑来了!支持私有化部署,文档问答/自动研究/多端接入全搞定!

在信息爆炸的时代,我们每天面对:Khoj 通过三大革新解决这些痛点:支持格式:PDF/图片/Markdown/Word/Notion核心能力:特色功能:支持渠道:6. 企业级安全架构技术架构解析模块技术栈性能指标核心引擎Python + Django1000+ docs/min前端界面React + TypeScript首屏加载<1s语义搜索Sentence-Transformers毫秒级响应任务调度Celery + Redis万级

2025-04-12 22:34:36 910

原创 LLaMA Factory 如何对大模型进行微调、导出和量化!掌握这几步,轻松搞定!

指令监督微调(Instruct Tuning)通过让模型学习详细的指令以及对应的回答来优化模型在特定指令下的表现。instruction 列对应的内容为人类指令, input 列对应的内容为人类输入, output 列对应的内容为模型回答。下面是一个例子。

2025-04-12 22:33:37 1000

原创 一文搞懂:为什么大模型会出现幻觉?日常使用中如何控制幻觉?

今天看到一篇人民日报发的文,Deepseek“乱编” 坑惨了大学生,使用 大模型写论文“被坑”的情况并不少见。例如,有网友分享了自己用大模型写论文的经历,大模型不仅会编造论文文献,还会编造法律条文。大模型会生成看似合理但实际错误的信息,这就是**“大模型幻觉”**现象。在日常使用大模型时,其生成的幻觉内容,是错误或者虚假的信息,会影响判断并导致决策失误。

2025-04-11 16:01:00 915

原创 闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

ORION 框架为端到端自动驾驶提供了一种全新的解决方案。ORION 通过生成模型实现语义与动作空间对齐,引入 QT-Former 模块聚合长时序场景上下文信息,并联合优化视觉理解与路径规划任务,在闭环仿真中取得了卓越的性能。

2025-04-11 16:00:07 603

原创 关于智能体Agent的实现技术之思维链和函数调用(function call)的思考

智能体是未来人工智能的一个重要应用技术,而其难点就在于怎么让大模型具备更好的独立思考和任务拆解与规划的能力。Agent技术也被业界称为智能体技术,本质上是使得大模型具备独立思考和解决问题的能力;被广泛应用于各种应用场景,而且也被称为是实现通用人工智能的一种技术手段。但在此之前对于智能体的理解比较肤浅,而今天突然发现原来智能体没我们想象中的那么简单,也没想象中的那么复杂。今天我们就从Agent的两个实现技术之思维链和函数调用来重新理解智能体。智能体和思维链以及函数调用。

2025-04-11 15:58:44 402

原创 通俗解释:大模型的参数究竟是啥?

大模型的参数究竟是什么东西啊?前几天我老婆这么问我。我说参数参数,就是参天大树……(哔——)参数参数,它就是个数嘛!比如其中一个参数可能是3.1415926,另一个参数可能是-0.0009527。像DeepSeek R1 最大的版本是671B,这个B是十亿的意思,也就是它有6710亿个,类似这样的数。你可以想象一张巨大的表格,每一个格子里都有一个类似这样的数,一共有几千亿个数,这些参数通常占了一大模型90%以上的体积。

2025-04-10 10:32:55 692

原创 RAG还是微调?AI落地的关键选择

你是否曾经面临这样的困境:部门刚刚决定采用大语言模型解决业务痛点,但技术团队却陷入了""的激烈争论中?一边是成本控制派,坚持RAG轻量级方案;另一边是性能至上派,认为只有微调才能满足业务需求。让我们跳出技术视角,用真实业务场景来理解这两种方案。小张负责公司客服系统升级,他思考着如何让AI客服能回答""这类问题。他面临两个选择:给AI装个"实时查询系统",每次有人提问,AI就去企业知识库查最新政策(或者定期对AI进行"集中培训",让它记住所有政策内容(

2025-04-10 10:30:53 321

原创 Attention又升级!Moonshot | 提出MoE注意力架构:MoBA,提升LLM长文本推理效率

人工通用智能(AGI)的追求推动了大型语言模型(LLMs)发展到前所未有的规模,有望处理模仿人类认知的复杂任务。实现AGI的一个关键能力是处理、理解和生成长序列的能力,这对于历史数据分析、复杂逻辑推理以及规划决策等相关应用来说至关重要。扩展上下文长度不仅体现在长文本提示词输入方面,也体现在对长思维链的输出方面。然而,要扩展大模型的上下文长度并非易事。就于传统注意力机制来说,它的计算复杂度会随着序列长度的增加而呈二次增长,如果要保证原有Attention机制效果同时要保证其性能一直是学术研究的重点。

2025-04-10 10:30:01 266

原创 李飞飞团队提出世界模型基准:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK

世界模型领域最新进展,要比拼“世界生成”了。李飞飞吴佳俊团队提出了全面评测基准,涵盖了三大类评估指标,动态静态都有涉及,其数据集中包含了3000个测试样例。并且,WorldScore。利用WorldScore基准,团队对一共19款模型进行了全面评估。评估的结果揭示了当前世界生成技术面临的相机控制能力不足、长序列世界生成困难等主要挑战,为模型研究人员提供了重要参考。正如网友所评价,从单一场景到整体世界构建的转变,需要这样的基准来对研究做出指导。

2025-04-09 13:32:43 693

原创 铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025

给定一个单视角的铰链物体的图像 ot 和对应的拖拽 at,我们的目标是生 成对应的 3D 高斯泼溅。我们首先会利用多视角生成模型 Zero123++ 生成输入的多视角图像,然后对输入的拖拽在用户希望移动的 Part 上进行传播。这些多视角的图像和传播后的拖拽会输入进我们设计的网络中,这个网络会对输入的拖拽进行多尺度的嵌入,然后将得到的嵌入拼接到重建网络的下采样层中。

2025-04-09 12:35:28 607

原创 现代医疗保健中的AI Agent智能体:从基础到先锋—在临床环境中影响与整合的全面综述及实施路线图

人工智能代理通过推进临床决策支持、自动化工作流程和个性化患者护理,正在改变医疗保健。本综述将人工智能代理分为四种进步模型:基础型、助手型、合作伙伴型和先锋型,每种模型代表逐渐增强的自主性和临床整合。我们贡献的核心是一份全面的实施路线图,该路线图利用模块化架构,包括感知、推理、互动和记忆组件,以实现这些多样化人工智能代理的无缝整合。本文通过提供可操作的指南和部署每种代理类型的示例性架构,解决了数据隐私、互操作性和监管合规等关键挑战,使医疗保健组织能够有效整合提升患者结果和运营效率的人工智能驱动解决方案。

2025-04-08 11:00:26 1012

原创 DeepSeek平民化AI助力数据治理整体方案

说起来很容易,但这需要企业长期的坚持地积累,可真不是一件容易的事,不可能某某领导一句话在基础不牢的前提下,AI就可以立即实现数据治理的目标。

2025-04-08 10:59:17 958

原创 上海交大发布CoLMDriver:首个基于LLM的全流程协作驾驶系统,成功率提升11%!

■ 4.3. 低层规划层**低层规划层专注于实时执行,将高层意图转化为几何可行的轨迹和控制命令。**关键组件是意图引导的路点规划器,以高频率运行,在驾驶意图指导下进行精确规划。意图引导的路点规划器作为连接高层驾驶意图和低层实现路径的桥梁。挑战在于如何精确地将高层意图映射到特定场景的可用路点。我们的设计包括两个主要部分:意图到路点的数据生成和模型结构。**意图到路点的数据生成:**为实现精确的意图引导路点生成,我们使用专家智能体的路点作为参考,生成与预期行动一致同时满足实际场景约束的路点。

2025-04-08 10:58:27 829

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除