自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(913)
  • 收藏
  • 关注

原创 开源项目利用browser-use-webui和DeepSeek把浏览器打造成一个AI Agent智能体!

简介:Make websites accessible for AI agents开源地址: https://github.com/browser-use/browser-useBrowser-Use 是一个开源的网页自动化库,它通过提供一个简单的接口,让 LLM 能够与网站进行互动。这个库支持多标签管理、XPath 提取和视觉模型处理,使得自动化网页操作变得更加简单和高效。

2025-04-01 19:17:41 720

原创 智谱推出 Agentic GLM 系列矩阵,全栈布局AI智能体生态

今天,智谱在中关村论坛上正式发布**「AutoGLM沉思」深度研究能力(Deep Research)实际操作(Operator)**,真正推动AI Agent进入「边想边干」的阶段。**-Rumination沉思。**其中核心链路的模型和技术,**我们将开源,**以推动行业生态发展。「让机器像人一样思考」,,目前已经探索到L3-Agentic LLM阶段。在行业生态方面,智谱坚持和行业伙伴共创,用其在大模型研发上的积累帮助行业伙伴成功,合力做出成功的大模型应用。

2025-04-01 19:15:42 443

原创 手把手教你实现自己的“Manus”:构建基于容器的多用户Agent应用

这个工具的任务是把AI生成的代码在一个动态启动的容器中执行,并返回结果。它并不关心代码的目的,仅仅是纯粹的执行。OK,这就是全部工作。如果不放心,你可以单独测试这个工具。这个Tool依赖于一个Web Agent,用来完成浏览器自动化任务。常见的技术方案有微软的OmniParse视觉分析以及browser-use开源Agent框架。由于需要在容器中完成web浏览,为了方便,我们把这个Agent调试好再直接build到容器镜像中(参考上篇的Dockerfile)。

2025-03-31 16:29:57 581

原创 Prompt Optimizer:一个强大的提示词优化工具

Prompt Optimizer:一个强大的提示词优化工具,帮助你一键提升AI回复的准确度。亮点:1. 支持多轮智能优化,显著提升AI回答质量;2. 集成OpenAI、Gemini等主流AI模型,满足多样化需求;3. 纯客户端处理,数据安全无忧。

2025-03-30 10:45:00 581

原创 多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

从今年 1 月 DeepSeek-R1 的提出,到人们开始在多模态大模型、甚至自动驾驶的 VLM 中加入 GRPO,仅仅过去了不到两个月。我们可以看到在这一波开源的浪潮下,AI 领域的发展肉眼可见地再次加速,下一次突破可能已近在眼前。不过在这股浪潮中,能算得上引领潮流的团队只是少数。进入大模型时代之后,昆仑万维在多模态领域的探索一直引人关注。

2025-03-29 11:00:40 679

原创 【AAAI】DCKD:动态对比知识蒸馏实现高效图像恢复

图1展示了传统知识蒸馏方法与本文提出的动态对比知识蒸馏(DCKD)方法的对比。在(a)中,传统KD方法仅约束了解空间的上界,缺乏对下界的约束,可能导致优化困难和低质量输出。在(b)中,现有对比式KD方法引入固定下界约束,虽然提升了教师模型知识的传递,但在训练后期学生模型远离下界,约束效果减弱。而(c)中的DCKD通过动态对比正则化,根据学生模型的学习状态动态调整解空间的下界,同时利用分布映射模块提取和对齐教师与学生模型输出的像素级类别分布,克服了传统方法的局限,提升了蒸馏效果和学生模型性能。

2025-03-29 10:59:48 791

原创 DeepSeek大模型在政务服务领域的应用

DeepSeek大模型在政务服务中的应用已从单一功能(如智能客服)向全链条服务延伸,形成“政策咨询-流程优化-决策支持-城市治理”的闭环。效率提升:安徽的会议纪要处理效率提升15倍,龙岗区工单分拨精准度显著提高;服务普惠:通过技术手段缩小数字鸿沟,惠及老年人与残障群体;治理创新:推动政府从“被动响应”向“主动服务”转型,如石家庄的业务优化建议功能。未来需重点关注数据安全治理与技术伦理规范,同时探索跨区域协同(如长三角政务模型资源共享),以实现更大范围的社会价值。

2025-03-28 11:06:44 573

原创 OWL深入分析,打造个人通用Agent

OWL 的多智能体协作机制通过分层架构和模块化设计实现高效协作。它的核心组件包括 BaseAgent、ChatAgent、RolePlaying、Workforce 以及 Task 相关 Agent 等,这些组件各司其职,共同完成任务分解、角色分配和任务执行等功能。项目地址:https://github.com/camel-ai/owl。

2025-03-28 11:04:56 668

原创 【成果评选】AI人工智能+大数据建模 打造“全业务、全流程、全要素”数智审管平台

以全流程无纸化网上办案为基础,破除数据孤岛和数据壁垒,打通数智审管平台与审判执行系统、督查督办系统、信访系统、政务人事系统的数据通道,实现审判数据、人事数据、督查督办数据、信访数据等司法数据资源的全面汇聚,形成“审判质效、审判权运行、重点案件、专项工作”的一站式监管模式;同时,融合公安、知识产权、市场监督、税务、药监等多类外部数据,构建全融合数据基础底座。建立同步汇聚和关联融合机制,制定统一的数据标准和规范,确保数据的完整性、一致性和准确性,促进司法数据采集、利用、复用良性循环。

2025-03-28 11:03:31 1010

原创 DDHFusion:双域同构融合网络,解决多模态特征难题,NuScenes数据集显优势 !

将激光雷达点云特征和图像特征融合到统一的鸟瞰视图(BEV)空间中,已成为自动驾驶中三维目标检测的广泛应用方法。然而,这些方法受限于多模态特征过高的压缩度。尽管有些工作探索了在密集 Voxel 空间中的特征融合方法,但它们在 Query 生成方面面临高计算成本和效率低下问题。为解决这些问题,作者提出了一种双域同构融合网络(Dual-Domain Homogeneous Fusion,简称DDHFusion),该网络利用BEV域和 Voxel 域的优势,同时缓解各自的缺点。

2025-03-27 11:07:41 326

原创 一文搞懂:大模型是怎么被训练出来的?AI大模型落地必读

从整体上看,训练LLM主要包括两个关键阶段:预训练(Pre-training)后训练(Post-training):微调、RL和RLHF。上述流程整合了预训练、微调、RLHF等核心阶段,适用于自然语言处理和多模态大模型:1.

2025-03-27 11:06:44 615

原创 企业智能中台,未来企业的核心智能引擎

今天我们讨论一个新的概念**“企业智能中台”**(Enterprise Intelligent Middle Platform,IMP)。这是一种全新的、面向未来的架构思想,旨在帮助企业构建灵活、可扩展、易于管理的智能基础设施。IMP采用“可组装的智能”架构理念,以打造的下一代智能基础设施为目标,并区别于现有的数据中台和AI平台。通过IMP提供的低代码/无代码开发平台和预构建能力,企业可以快速构建和部署不同业务领域的专家级智能体,帮助企业快速实现业务流程的自动化,并支持智能决策和资源优化配置。

2025-03-27 11:03:23 311

原创 AI Agent(多智能体)平台未来 5 年发展趋势

对于设计 AI 产品而言,了解技术演变的趋势非常重要。这样做有两个好处,第一是可以让你的产品更符合未来技术的能力,进而长久的存在下去,另外一个好处是,可以避免你的产品因为模型能力提升被覆盖掉。这一篇中,我将尝试对多Agent平台技术未来 5 年的演进做一个判断,希望可以给大家一个启发。在这一篇中,我们主要讨论未来 5 年内多Agent平台的两大发展趋势:(1)多Agent 平台的技术架构演进,以及(2)模型能力的提升。多Agent架构正从简单的设置演变为更加分布式、分层和混合的框架,以协调大量Agent。

2025-03-26 10:14:59 858

原创 Nature Machine Intelligence 嵌入式大语言模型使机器人能够在不可预测的环境中完成复杂的任务

近期英国爱丁堡大学发表Nature Machine Intelligence研究工作,提出了一种名为**ELLMER(具身大型语言模型支持机器人)**的创新框架,通过整合大型语言模型(如GPT-4)、检索增强生成(RAG)、视觉和力反馈,使机器人能够在动态环境中完成复杂的长期任务。https://www.nature.com/articles/s42256-025-01005-x为了让机器人执行高阶抽象指令(如“制作咖啡并装饰盘子”),通过分解任务、适应环境变化和实时反馈完成任务,该研究工作提出框架的核心组

2025-03-26 10:14:09 260

原创 大模型Agent的 “USB”接口!| 一文详细了解MCP(模型上下文协议)

MCP英文名:Model Context Protocol,中文名:模型上下文协议。MCP最早于2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大语言模型(LLM)与外部数据源和工具之间的通信协议,

2025-03-26 10:12:58 641

原创 清华团队新模型YOLOE:一句话圈出图中万物,实时开放检测分割零门槛!

只能识别“人”,但分不清衣服颜色和职业,难以适应开放场景。:能理解需求,但检测慢如蜗牛,工厂产线等不起!清华团队继YOLOv10后,又推出系列王炸YOLOE,就是要解决这两个问题——提出了一个、统一的开放物体探测与分割模型YOLOE,能够高效在单一模型中处理多种开放提示机制(文本、视觉、无提示),实现实时的「万物看见」能力。针对文本提示,提出了可重参数化的区域-文本对齐(RepRTA)策略。它通过一个可重参数化的轻量级辅助网络来优化预训练的文本嵌入,并增强-视觉文本对齐,且在推理和迁移时无额外开销。

2025-03-25 10:05:48 664

原创 一篇85页的面向推理型大模型的Long-CoT技术最新综述

推理型大模型(Reasoning Large Language Models)例如等在数学和编程等复杂领域展现了令人印象深刻的能力。它们成功的关键因素之一在于它们应用了(Long Chain-of-Thought, Long CoT)的特性,这种特性增强了模型的推理能力,使其能够解决复杂的问题。。包括其格式和学习方法。关注反思过程中的反馈和优化策略中的细化技术。涉及长链推理的关键改进,包括规模扩展、内部探索和外部探索。

2025-03-25 10:02:51 930

原创 又造新概念?|思维链压缩是什么?

❝一句话概括,模型变身高智商金鱼,7秒记忆高效推理一边思考边扔垃圾,内存省了,智商还在线。动态如何实现"压缩"和"继续推理"是关键。他们设定了特定的注意力mask,让压缩标记只关注必要的上下文,而后续生成只能依赖被压缩后的小片段这个度量直接衡量模型对长上下文的依赖程度,需要理解它背后的概念:它不是简单的最大序列长度,而是用"生成步步都依赖了多少历史信息"来衡量要想理解整篇论文的思路,先要搞清楚动态压缩是如何实现,然后再看专用mask的设计,最后用Dependency来比较各种方案好坏。

2025-03-24 11:39:28 739

原创 专题解读|大语言模型低成本微调方法

预训练大语言模型(LLM)具备强大的通用能力,但在需要深入理解技术语言或特定领域知识的专业领域中,它们往往表现不佳。因此,虽然预训练使LLM能够捕捉通用知识,但微调(Fine-tuning)对于将这些模型适应特定领域至关重要。

2025-03-24 11:38:13 855

原创 一文搞懂激活函数和损失函数(PyTorch)

常见的激活函数有 Sigmoid、Tanh、ReLU 和 Leaky ReLU。)是什么?激活函数是神经网络中的非线性函数,用于在神经元之间引入非线性关系,从而使模型能够学习和表示复杂的数据模式。将输入值压缩到(0, 1)之间,常用于二分类问题的输出层。但存在梯度消失问题,且输出不以零为中心。

2025-03-24 11:37:07 1061

原创 解锁 AI Agent 构建密码:六大开源框架解析

AI Agent 正逐渐改变我们与信息系统的交互方式,它们能够自动化执行任务、做出决策,甚至与人类进行协作。但是,从零开始构建强大的 AI Agent 是一项复杂的工作。幸运的是,开源框架的出现大大降低了这一难度,它们为开发者提供了丰富的工具和现成的结构,使得开发智能、交互式的 AI Agent变得更加容易。所以,我趁周末的时光,为大家总结了我日常工具库中经常使用或参考的Agent框架,在这里分享给大家,希望能给各位伙伴带来灵感或有所启发。

2025-03-23 10:45:00 1575

原创 重磅突破!AI让CT秒变MR,医学影像诊断迎来革命性突破——MR-GAN技术如何让一次扫描实现双重诊断价值?

让影像生动有趣,让科研有迹可寻;专注机器学习、深度学习、多模态图像融合、图像生成模型、超分辨率、Python学习、影像诊断与技术、文献解读、统计分析、真实世界临床研究以及课题设计等。在现代医学影像领域,CT(Computed Tomography)和MR(Magnetic Resonance Imaging)是两种不可或缺的工具。CT以其快速成像和高性价比广泛应用于临床,而MR则因其卓越的软组织对比度成为肿瘤分割和器官精确定位的“金标准”。

2025-03-22 10:41:20 646

原创 AI问答的核心!知识图谱:突破传统 RAG 的天花板

看似简单的 AI 问答系统,背后却隐藏着无数技术难题。当我们询问"组件 A 与组件 B 有什么区别"这样的问题时,传统检索增强生成(RAG)系统往往会犯难。它们就像只会做加法的计算器,遇到了需要乘除法的复杂方程…例如,你问系统:“A组件和B组件有什么区别?传统 RAG 可能会单独找到关于A和B的片段,但。这就像给了厨师所有原料,却没有告诉他们这些原料应该如何组合。知识图谱技术为 RAG 系统带来了质的飞跃。它不再将知识视为孤立的文本块,而是。这种方法特别适合解决需要综合理解的复杂问题。

2025-03-22 10:40:08 736

原创 ViDoRAG:提升视觉RAG性能10%

例如,一份金融报告可能包含复杂的图表和表格,传统的 RAG 系统只能提取文本信息,而忽略了图表中的关键数据,导致信息不完整。这种多智能体框架通过迭代推理的方式,逐步优化答案的生成过程,减少了无关信息的干扰,提升了推理的鲁棒性。由于模型的固有特性,LLM 的推理能力比 VLM 更强。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

2025-03-21 10:59:45 824

原创 实操干货!MCP全解析,一步步教你借助第三方MCP Server开发Agent

随着最近Manus带动Agent应用的火热,MCP(模型上下文协议)成为很多社区热议的话题。今天为带大家带来深度的MCP解析与实操应用指南,相信看完这篇你应该可以立刻上手MCP。让我们从一个实际的开发样例开始。假如你开发了一个AI应用,无论是ChatBot还是复杂的Agent,都不会再局限于简单的LLM对话,很多时候你需要与外部世界连接,以访问数据源或使用工具。比如:操控浏览器实现自动化;访问本地文件访问数据库结构,以更好的让AI做编程调用CRM的API以驱动智能客服流程。

2025-03-21 10:58:25 2398 1

原创 正在爆发!“LSTM+卡尔曼滤波”成论文新赛道!

核心思想是结合两者各自优势(LSTM的时序建模能力+卡尔曼滤波的动态状态估计),以提高系统的性能和准确性,非常适用于多种时间序列预测和状态估计任务。这方向属于深度学习与传统滤波算法的交叉领域,目前处于技术上升期,在自动驾驶、无人机跟踪、传感器融合等领域都有很大需求,:本文提出了一种结合半迭代扩展卡尔曼滤波(SEKF)和长短期记忆网络(LSTM)的后处理算法,以改善漫射荧光断层成像(DFT)的图像重建质量和速度,通过数值模拟、人体模型和体内实验验证其性能。

2025-03-21 10:56:36 875

原创 Search-R1:让大模型学会“检索+推理”的新范式

今天分享一篇伊利诺伊大学的文章,标题为:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。论文提出了一个名为SEARCH-R1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理过程中自主生成搜索查询并与实时

2025-03-20 10:40:11 699

原创 港大开源了博士级全自动AI科研助手:利用 LLM Agent实现全自动科研

香港大学数据科学团队近日宣布了他们的 Google AI Co-Scientist 的开源替代品 AI-Researcher:一款利用 LLM Agent 实现的全自动科研助手系统。AI-Researcher 为科学家提供:🎯:端到端的研究自动化🔄:集成所有研究阶段的工作流🧠:基于最前沿的 LLM Agent🚀:提升科学创新效率在此层级,用户提供具体的研究想法描述,系统根据这些详细输入制定实施策略,并严格按照用户需求进行研究开发。

2025-03-20 10:37:28 1118

原创 Cell || 综述:单细胞数据快速自动化分析的未来是基于参考图谱的方法

参考数据集(框1)和映射算法正在改变单细胞测序数据集的分析工作流程。这与第一个人类基因组图谱构建所带来的类似趋势相呼应。基于参考的分析将数据解释从无监督领域转变为有监督领域,使得从多个先前实验中积累的信息能够帮助解释新数据。在分析基因组序列数据时,参考图谱的存在确保了每个新实验无需从数据本身重新组装基因组,极大地简化了分析工作流程,并降低了对读长和数据质量的要求。同样,对于单细胞分析,高效的参考映射工作流程可以用自动映射和注释取代手动、费力且主观的无监督聚类和标记任务。

2025-03-20 10:35:39 1018

原创 谷歌AI Co-Scientist:基于多智能体的科学发现加速器

AI正快速改变我们生活的方方面面、重塑千行百业。本公众号持续跟踪AI前沿领域,AI驱动的行业和智能科技产品,探索AI应用场景和AI智能体aiagent落地途径,分享AI科普知识和工具使用心得!谷歌在应用**人工智能协助科学发现(AI for Science)

2025-03-19 21:15:34 976

原创 AI时代-大模型和深度推理能力-你引以为傲的思考力都如此廉价

任何思维活动,外界新输入,大脑已有知识经验库,大脑处理过程三者缺一不可。如果我们知识经验库是一片空白,即使我们接收到思维信息我们也不可能展开思维活动。而这个时候你要做的是通过学习将信息转换为知识。

2025-03-19 20:54:20 675

原创 自然子刊!阿斯利康提出临床大模型,精准预测癌症治疗效果

Clinical Transformer框架的提出,为AI在医学领域的应用提供了新思路。通过结合自监督学习、跨模态数据整合和生成式AI,该方法在癌症生存预测和生物标志物发现方面取得了突破性进展。未来,随着AI技术的进一步发展,我们有望看到更多基于Transformer的医学AI应用,为精准医疗带来更大的变革。

2025-03-19 20:53:32 1027

原创 Model Context Protocol (MCP) 与 传统 Function Calling 到底什么区别,怎么选?

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

2025-03-18 14:38:10 700

原创 开源!大模型支持的数据分析平台,可私有化部署

大模型支持的数据分析平台,可私有化部署源代码。

2025-03-17 20:57:10 1037

原创 WWW 2025 | LLM4Rerank:基于大模型的zero-shot重排序框架

本文提出了一种基于LLM的重排序模型LLM4Rerank,它可以利用LLM的zero-shot语义理解能力进行多指标指导的复杂重排序流程,并具有很强的泛用性和可扩展性。在三个数据集上的实验验证了该框架的性能。

2025-03-17 20:53:51 691

原创 医学知识图谱驱动的GraphRAG:Deepseek-R1与Weaviate用于高级Chatbot

大型语言模型(LLMs)显著推进了自然语言生成领域。然而,它们经常生成未经核实的输出,这影响了其在关键应用中的可靠性。在本研究中,我们提出了一个创新框架,通过检索增强生成技术将结构化的生物医学知识与LLMs相结合。我们的系统通过识别和精炼与年龄相关性黄斑变性(AMD)相关的医学摘要中的因果关系及命名实体来开发一个全面的知识图谱。利用基于向量的检索流程和本地部署的语言模型,我们的框架生成的回应既具有上下文相关性又可核实,并直接参考临床证据。

2025-03-17 20:49:21 784

原创 首次实现分子生成与性质预测的统一,清华团队提出两阶段扩散生成机制,入选ICLR 2025

UniGEM 模型统一了分子生成和性质预测任务,并显著提高了分子生成和性质预测的性能。UniGEM 的增强性能得到了坚实的理论分析和全面的实验研究支持。我们相信,创新的两阶段生成过程及其相应的模型为分子生成框架的发展提供了新的范式,并可能激发更多高级分子生成框架的开发,进而惠及更多特定应用领域的分子生成。

2025-03-16 10:45:00 1338

原创 一文搞懂AGI Agent(通用型AI智能体)- Manus

Manus是2025年3月由中国武汉(创始人华中科技大学毕业)团队Monica.im推出的全球首款通用型AI智能体(AGI Agent),其核心理念为“手脑并用”(Mens et Manus),旨在通过自主规划与执行任务,将用户需求转化为实际成果,而非仅提供建议。Manus标志着AI从“生成答案”到“交付成果”的跨越,其多智能体架构和工程化能力重新定义了人机协作模式。用户可通过官网申请内测(目前一个内测码已经炒到了8.8万),体验智能化闭环任务处理。

2025-03-15 10:45:00 987

原创 中央一号文件首提“农业新质生产力” 驱动农业从资源依赖向科技驱动转型

新质生产力是农业高质量发展的核心驱动力。2025年中央一号文件明确提出,“推进农业科技力量协同攻关。以科技创新引领先进生产要素集聚,因地制宜发展农业新质生产力。“农业新质生产力”在历年中央一号文件中被首次提出。专家表示,将新质生产力写入中央一号文件具有里程碑意义,明确了以现代科技重构农业生产力的战略方向,标志着我国农业现代化进入系统性变革的新阶段。河南信阳,全自动智能化育秧工厂农业新质生产力的核心在于构建"科技内核"

2025-03-14 17:31:52 734

原创 一文读懂 RAG 中的 embedding model

在当今人工智能的浪潮中,RAG(检索增强生成)技术大放异彩,像是 RAGFlow、Qanything、Dify、FastGPT 等 RAG 引擎,逐渐走进大家的视野。在这些强大的 RAG 引擎背后,有一个关键组件起着不可或缺的作用,它就是嵌入模型(Embedding Model)。今天,就让我们一起深入了解一下这个神秘的嵌入模型吧!

2025-03-14 17:20:30 773

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除