- 博客(65)
- 收藏
- 关注
原创 MetaMolGen: 基于元学习的分子生成模型,擅长在少量数据和特定属性条件下设计新分子
2 型糖尿病和肥胖症是全球关注的健康问题,而胰高血糖素样肽 -1 受体(GLP-1R)激动剂是治疗这两类疾病的重要靶点。目前市面上虽然已有多种口服小分子 GLP-1R 激动剂,但它们普遍存在一些局限性,例如效力低、药代动力学特性差以及安全性问题。研究者开发了一种名为 DA-302168S (化合物 29) 的新型口服小分子 GLP-1R 激动剂,它展现出更高的体内外效力,并且降低了药物相互作用的风险。临床前研究数据表明,DA-302168S 在激活 cAMP、降低血糖和抑制食欲方面均表现出显著疗效。
2025-04-29 20:11:00
589
原创 北京大学开源论文 | 强化学习微调框架引入具身智能领域!让机器人“看懂”空间变化
视觉推理能力是人工智能迈向通用智能(AGI)的关键,但传统方法存在过拟合、认知僵化等问题。近期,来自北京大学和北京人工智能研究院的团队提出 Reason-RFT 框架,通过强化微调(RFT)与监督学习(SFT)的结合,显著提升了视觉语言模型(VLM)的推理泛化能力。Reason-RFT 的核心是两阶段混合训练策略,结合监督学习与强化学习的优势:阶段一:监督微调激活推理能力阶段二:GRPO 提升泛化能力奖励函数设计 针对不同任务定制奖励机制:格式奖励:强制模型按推理答案格式输出,提升可解释性。
2025-04-29 20:08:53
406
原创 李宏毅教授 | 2025最新AI Agent课程资料(96页PPT)
李宏毅老师的课程,还是一如既往的通俗易懂。从ML时代开始,就看过李宏毅老师的很多课件和视频,印象最深的还是他用宝可梦的元素来做类比,几页皮卡丘和妙蛙种子的简单对话,就能将晦涩难懂的概念和架构,直观地展现出来。
2025-04-28 20:08:45
887
原创 关于RAG应用中怎么高质量的进行数据召回——召回策略的研究
RAG技术的核心原理很简单,本质上就是在外部维护一个资料库,在进行大模型问答之前,先从资料库中找到相关的内容,然后一起输入到大模型中。但由于文档的复杂性,在进行文档处理时很难真正做到高质量的数据处理;因此,在做数据召回时就会面临着各种各样的问题。所以,怎么进行高质量的数据召回,就成为RAG必须要研究的一个课题;而今天,我们就来简单介绍一下常见的几种召回策略。召回策略RAG的难点主要有两个,一个是前期的文档处理;其次就是数据的召回;
2025-04-28 20:07:37
652
原创 模型活动可视化开源项目:MAV ,可以动态直观的展示大型语言模型(LLM)内部工作机制
MAV 支持用户开发自定义插件,扩展其功能。例如,通过修改可视化面板,添加新指标如困惑度(perplexity)或生成速度。相关示例在 Colab 插件开发 中提供,适合高级用户。
2025-04-28 20:06:53
761
原创 从大模型、智能体到复杂AI应用系统的构建
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
2025-04-27 10:53:37
934
原创 多模态RAG:解读检索、重排、精炼三大关键技术
多模态检索的三个关键组件包括:检索器(retriever)、重排序器(reranker)和精炼器(refiner)。可分为单/双流结构和生成式结构,每种结构都涉及单模态(例如,文本、图像)和跨模态信息检索。稀疏文本检索密集文本检索例如:BERT、RoBERTa、Poly-encoder、ColBERT等文本-图像检索例如:基于视觉语言预训练(VLP)模型,利用大规模视觉语言数据集进行联合预训练。TEAM单流模型对齐多模态token嵌入以进行token级匹配。
2025-04-27 10:52:08
722
原创 阿里发布多模态UniME:硬负样本+知识蒸馏=性能天花板,准确率暴涨27%
为什么传统模型不够用?而最近爆火的多模态大模型(如LLaVA、Qwen-VL),虽然能理解复杂指令,但它们的“嵌入表示能力”却鲜有人研究——就像学霸会解题,但不会总结考点。论文:Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs链接:https://arxiv.org/pdf/2504.17432论文提出了知识蒸馏流程图:普通训练用的负样本太简单(比如用“猫”匹配“狗”),模型学不到真本事。
2025-04-27 10:51:04
972
原创 论文浅尝 | Interactive-KBQA:基于大语言模型的多轮交互KBQA
KB定义为三元组集合K∈E×R×(E∪L∪C),其中E为实体集合,R为关系集合,C为类别集合,L为字面值。给定自然语言问题Q和知识库K,目标是通过语义解析生成可执行的SPARQL查询S,即建模为条件概率p(S|Q,K)。
2025-04-26 10:45:00
654
原创 谈谈字节的Attention/Expert分离
看到一篇字节的AE分离(Attn/MoE)的文章《》 挺有趣的.文章有一个非常简单的叙事, Microbatch, 然后M:N的Attn:MoE配比并配合异构算力来降低成本.
2025-04-25 20:20:57
987
原创 Nature子刊 | 大型语言模型在医学中的应用
大型语言模型(LLM)可以响应自由文本查询,而无需对相关任务进行专门培训,人们对其在医疗保健环境中的应用感到兴奋也担忧。ChatGPT是通过大语言模型(LLM)的精密微调产生的生成式人工智能(AI)聊天机器人,其他工具也经过类似的开发过程生成。本文概述了大型语言模型(LLM)应用程序(如ChatGPT)是如何开发的,并讨论了如何在临床环境中充分利用它们。还考虑了大型语言模型(LLM)的优势和局限性,以及它们提高医学临床、教育和研究工作效率和效果的潜力。
2025-04-25 20:19:15
879
原创 可以本地部署的 Dify
Dify 这个产品其实发布了有一段时间了。它更像一个更加成熟的 Manus ,而且不需要邀请码,并且可以本地部署。应该是很多人都知道它是一个什么样子的产品了。如果你之前已经使用过并且有一定了解了,这篇内容对你的价值应该不大。这篇文章还是主要给还没有了解的朋友做一个介绍,给大家看一个官网的截图:简单说明一下,Dify 就是一个集成了很多大模型 API 能力的工具。我们可以自己配置工作流,整合很多第三方工具。Dify 有自己的官网部署版本,你需要注册官网账号,然后使用。当然,因为它也是开源的产品。
2025-04-24 09:55:49
297
原创 一口气推出10余款医疗智能体,联影要放大招了?
智能体,这可能是今年大模型产业最热的关键词之一。一个典型的代表就是manus的一夜爆火,让整个人工智能产业意识到,将大模型能力落地形成智能体,才是应用的最佳,甚至是最短路径。在医疗领域,各家纷纷拿出大模型产品,但从目前效果看,大多大同小异,关键是尚未有场景化聚焦非常明确的案例。就在最近,联影发布了“元智”医疗大模型,并同步推出覆盖影像诊断、临床治疗、医学科教、医院管理、患者服务等多场景的10余款医疗智能体。一口气推出10余款医疗智能体,联影要放大招了?
2025-04-24 09:54:56
363
原创 三大神器对决!Dify/RAGFlow/n8n企业数字化选型指南:7大维度教你闭坑省百万
RAGFlow:复杂文档处理强,法律医疗离不了(文档复杂选它好);Dify:快速开发没烦恼,中小团队效率高(快速出活选它妙);n8n:系统集成是专长,流程自动化称王(系统打通找它帮)。
2025-04-24 09:53:17
795
原创 6000字!一文全览大模型微调方法
大模型微调,顾名思义,就是在已经训练好的大模型基础上,再进行一次“加工”。具体来说,就是利用特定领域的数据,对预训练模型进行进一步训练,让模型更好地适应特定的任务或领域。就好比一个通用的机器,经过微调后,能够精准地完成某个特定的工作任务。微调的重要性不言而喻。首先,它赋予了模型定制化的功能。不同的领域和任务对模型的要求各不相同,通过微调,可以使模型更好地满足这些特定需求。比如在医疗领域,微调后的模型能够更准确地识别医学影像中的病变特征;在金融领域,微调后的模型可以更精准地预测股票走势。
2025-04-23 20:16:30
632
原创 大模型:多种RAG组合优化(langchain实现)
这篇文档整合了多种rag优化策略,并且使用langchain实现。可以有效的解决幻觉的问题。
2025-04-23 20:12:55
554
原创 体验智能体构建过程:从零开始构建Agent
首先,我们需要一个处理用户输入的模型。我们将创建一个OllamaModel类,它与本地API交互以生成响应。
2025-04-22 10:44:26
797
原创 [论文分享]Nature 2025 通过反向传播语言模型反馈优化生成式AI
最近,在人工智能(AI)领域的突破越来越多地依赖于由多个大语言模型(LLMs)与其他专用工具协同工作的系统。然而,目前这些系统主要由领域专家手工设计,并通过启发式方法进行调整,而不是自动优化,这在加速人工智能发展方面构成了重大挑战。人工神经网络的发展曾面临类似的挑战,直到反向传播和自动微分的出现,使得优化变得自动化,从而彻底改变了该领域。类似地,本文引入了TextGrad:一种通用框架,它通过对LLM生成的反馈进行反向传播来优化AI系统。
2025-04-22 10:42:59
631
原创 智能AI电子病历系统产品设计解析:从政策到落地的实战
智能AI电子病历系统(AgentEMR)是医疗数字化转型的核心工具,其设计需兼顾临床需求、政策合规性和技术可行性。智能AI电子病历系统在实现病历数据的实时更新和共享时,不受时间和空间的限制。医生可以随时随地获取和使用病历数据,提高诊疗效率。并且利用AI技术自动提取、分析和解释病历数据,减少医生的操作负担和错误率。此外,智能AI电子病历系统通过数据挖掘和预测分析的功能,可以根据病历数据中的规律和趋势,提供个性化的诊疗建议和健康管理方案。
2025-04-22 10:42:03
1044
原创 ICLR‘25 | 评估大模型智能体的复杂任务规划能力
是大模型智能体的核心能力,广泛应用于大模型的多工具调用、具身智能场景中的复杂任务拆解和多机器人协同、复杂问题的求解、医学场景中的疑难杂症诊断分析,AI for Science中的实验方案设计等。相较于普通的推理能力,规划更加依赖于结构化思维建模(Structure Thinking),而非单一的线性思维过程。研究表明,目前的大模型在规划能力上仍有显著不足,尤其在处理图结构类型的工作流任务时表现薄弱。
2025-04-21 20:04:12
999
原创 3000字!一文看懂什么是RAG
检索增强生成(RAG)是一种用于构建大型语言模型(LLM)驱动型应用的技术。它借助外部知识源,为大型语言模型提供相关背景信息,从而减少幻觉现象。就好比给 LLM 配备了一个小型的“资料库”,当用户提出问题时,系统会在资料库中查找相关内容并提供给 LLM,以帮助其生成更准确的回答。基本的 RAG 流程包括检索组件(通常由嵌入模型和向量数据库组成)和生成组件(大型语言模型)。在推理阶段,用户问题用于在已索引的文档上执行相似性搜索,检索出与问题最相似的文档,并为大型语言模型提供额外的背景信息。
2025-04-21 20:03:20
1021
原创 一口气读懂“大模型的预训练”是怎么回事
写这篇文章的原因是大概在两周前,我看完了卡帕西三个半小时在油管上课程。他用简单的语言,讲明白了大模型从无到有的建立。其中他还罗列了非常多好用的网站工具,例如可视化的动画工具理解Transformer架构。如果从英语为母语的人的角度去看这个课程肯定是非常非常简单,但是作为一个非母语,而且英语又没有那么好的人,看看这个视频还是有点费劲的。我看完这个视频后,又花了几天时间,点开了他课程里所有的链接、看了链接里面的论文,才弄明白他说的所有东西。
2025-04-21 20:01:39
592
原创 自监督训练超越传统微调!论文作者授权解读自监督革命性研究!
(1)纯无监督自我训练框架——Genius这篇论文的核心创新在于提出了一个无任何外部监督信号的自我训练框架——Genius。它只需要"通用场景下的自然语言查询"(即并不带标准答案或评价指标的普通文本问题),就能在推理能力上"自学"并提升模型性能。(2)引入"前瞻式(foresight)重采样"策略为了克服自回归生成过程容易"鼠目寸光"的问题,论文提出了一个关键策略:在每个推理步骤,不仅生成若干候选步骤,还会"向前模拟"可能出现的后续步骤,从而给当前的候选步骤一个更具全局意识的"前瞻打分"(foresig
2025-04-20 10:45:00
1452
原创 大模型:多种RAG优化策略
研究人员提出了一种自适应QA框架-[adaptive RAG],根据查询复杂度从最简单到最复杂的LLM中动态选择最合适的策略。该框架用小LM训练了一个分类器,预测查询的复杂程度。这一方案在迭代和单步Retrieval-Augmented LLM以及无需检索方法之间实现了无缝自适应响应各种复杂度的查询。
2025-04-19 10:45:00
579
原创 用RAG的思路构建文档级别知识图谱框架-RAKG
我们来看一个用RAG的思路构建文档级别知识图谱构建框架思路,这个思路要解决的问题是。传统的知识图谱构建方法面临的问题。整体思路可以参考下。上图的流程:RAKG框架通过句子分割和向量化处理文档,提取初步实体,并执行实体消歧和向量化。处理后的实体经过语料库回顾检索以获取相关文本和图结构检索以获取相关知识图谱。随后,使用LLM整合检索到的信息以构建关系网络,这些网络针对每个实体进行合并。最后,新构建的知识图谱与原始知识图谱相结合。
2025-04-18 19:44:02
785
原创 一篇80页多模态RAG技术最新综述:MRAG3.0
多模态检索增强型生成(Multimodal Retrieval-Augmented Generation, MRAG)通过整合多模态数据(如文本、图像和视频)来增强大型语言模型(LLMs)的能力,显著提高了生成的质量并减少幻觉,系统地回顾了MRAG进展、技术组件等。,每个阶段都引入了新的技术和架构。MRAG1.0 的架构,通常被称为“伪MRAG”,与传统RAG非常相似,由三个模块组成:文档解析与索引、检索和生成。尽管整体流程基本保持不变,但关键区别在于文档解析阶段。
2025-04-18 19:42:46
618
原创 微软论文:API Agents和GUI Agents的分歧与融合
大型语言模型(LLM)的出现开启了人工智能的新纪元,在广泛领域实现了高级自然语言理解和生成。尽管 LLM 长期以来因其生成连贯文本的能力而受到认可,但最近的发展已催生出基于 LLM 的智能体,能够将语言输入映射到数字环境中的实际操作,这些代理可以与各种软件系统交互、执行命令并对其所在的软件生态系统产生实际影响。最初,软件 LLM 代理主要以应用程序编程接口 (API) 为中心,通过明确定义的编程接口与外部工具、功能或服务进行交互。
2025-04-17 20:07:18
739
原创 GraphRAG实战(openai+langchain+neo4j)
本文我们将讨论GraphRAG(Graph-based Retrieval Augmented Generation)的实现流程,其中使用OpenAI进行自然语言处理,使用neo4j作为图数据库。将上述文本使用OpenAI将文本转换为图表示,并存储在neo4j中在上图中,紫色的节点(df48cdaf)代表文档,红色节点(Nobel Prize)诺贝尔奖,两个蓝色的节点代表人名(玛丽·居里、皮埃尔·居里),灰色的代表(University Of Paris)巴黎大学。
2025-04-17 20:04:29
954
原创 下一代智能体Agent AI在医疗保健领域的转型应用
人工智能(AI)正在改变医疗保健领域的格局,然而许多当前应用仍然局限于特定的任务,受限于数据的复杂性和固有的偏见。本文探讨了下一代“具有代理作用的AI”系统的出现,这些系统以高度自主性、适应性、可扩展性和概率推理为特征,解决医疗管理中的关键挑战。这些系统提升医疗保健的各个方面,包括诊断、临床决策支持、治疗计划、患者监测、行政操作、药物发现和机器人辅助手术。通过多模态AI的驱动,具有代理作用的系统整合多样的数据来源,迭代精炼输出,并利用庞大的知识库提供情境感知、以患者为中心的护理,精确度提高,错误率降低。
2025-04-17 20:02:53
1039
原创 多模态RAG文档检索竞赛前三获奖方案解读:MMDocIR/KR任务
今天我们。从中可以看到大家针对这类问题,?大多数检索增强生成(RAG)模型是根据用户查询检索相关文本文档而设计的。。检索多模态文档将帮助AI聊天机器人、搜索引擎和其他应用为用户提供更准确、相关的信息。。最终目标是根据用户的文本或多模态查询检索相关的多模态文档或段落。比赛地址在:https://www.kaggle.com/competitions/multimodal-document-retrieval-challenge旨在。
2025-04-17 20:01:43
894
原创 小米汽车开源ORION:用VLM重构端到端自动驾驶?首个「视觉-语言」驱动的端到端自动驾驶新范式
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。天道酬勤,你越努力,就会成为越优秀的自己。
2025-04-16 20:14:49
1021
原创 264页最强 Agents 发展与挑战综述,微软&谷歌&MetaGPT联合出品!
MetaGPT&微软&港科大&斯坦福&谷歌等20个机构联合发表长达264页的最强:从受大脑启发的智能到进化、协作和安全的系统, 提供了一个全面的概述,将智能 Agents 置于,整合了认知科学、神经科学以及计算研究的原则。,标注了其在 AI ()研究中的当前探索水平。突出了现有成就、差距以及推动 AI 能朝着更全面、受大脑启发的能力发展的潜在机会。主张从人脑中汲取灵感,系统地分析和设计:生物系统通过将专业化的组件(用于感知、推理、行动等)紧密整合来实现——这种方法可以作为加强当前。
2025-04-16 20:12:15
1013
原创 企业知识库:实战经验|大批量文档如何炼成智能知识库?阿里百炼+AppFlow的“小步快跑”策略
1️⃣:优先注入,放弃初期全量覆盖。2️⃣:所有文档转为,确保代码块、流程图解析准确。##!紧急操作!##:将置信度<0.7的回答自动转人工,同步补充知识库。:::warning。
2025-04-15 11:38:43
909
原创 费曼讲解大模型参数微调——小白也能看懂
人物组(1):老师、学生。人物组(2)爸爸、妈妈、我,妹妹。任务一:妈妈监管我的学习,我学习理科,我主要就是寻找窍门,提升解题的技巧和方法,想在考试中获得高分,这样妈妈就会多给我零花钱。任务二:爸爸监管妹妹的学习,妹妹学习文科。妹妹主要就是背,就是把书本上学到的知识都背下来,通过记忆内容来学习。
2025-04-15 11:36:45
564
原创 从 MCP 到 A2A,AI Agent 应用架构设计演进之路
AI Agent 本质上是一种通过控制大语言模型(LLM)来解决问题的 AI 应用系统,但这一本质特征并不妨碍其成为大模型时代最具潜力的应用方式。尤其在 DeepSeek 和 Manus 等项目今年爆火之后,AI Agent 被认为即将迎来发展的黄金时期。然而,AI Agent 的发展也面临着诸多瓶颈,比如:应用程序调用的复杂性以及跨平台 AI Agent 之间的通信问题等。
2025-04-15 11:35:14
704
原创 【5分钟】搭建本地多模态大模型Qwen2.5-VL
针对交通场景的场景理解和识别一直是一个挑战。如何像人类一样理解场景中主车和交通参与者博弈行为,就需要一个多模态的大模型来承担此任务。最近多模态开源较不错效果是QWen-2.5VL, 准备拿来小试牛刀,看看此模型效果如何。1、本地模型搭建过程3、由于在国内,安装modelscope并下载模型权重相关文件4、启动Web推理服务5、模型推理效果6、基于openai 接口形式推理安装依赖启动本地推理API服务API推理。
2025-04-14 20:07:52
739
原创 基于冻结多模态基础模型的无源域适应
无源域适应(Source-Free Domain Adaptation, SFDA)旨在将源模型适应到目标域,仅使用未标注的目标训练数据和预训练的源模型。传统方法依赖于伪标签和/或辅助监督,不可避免地容易出错。为了缓解这一限制,作者首次探索了现成的视觉-语言(ViL)多模态模型(如CLIP)的潜力,这些模型具有丰富但异构的知识。作者发现,直接将ViL模型以零样本方式应用于目标域效果不佳,因为它并非针对特定任务而设计,而是通用的。为了使其任务特定化,作者提出了一种新颖的。
2025-04-14 20:05:56
661
原创 智能体(Agent)的 3种表现类型:聊天助手、工作流与对话流
与智能体的组成不同,所谓的智能体表现模式,就是智能体呈现给大家的样子或者交互方式。智能体开发平台Dify里面,将智能体的类型分成了5种,但是我觉得这种分法很容易让初学者产生误解。上图种的Agent竟然是应用类型,Agent不是智能体的英文名称吗?下图种工作流的节点也叫Agent??Dify的插件分类中也有Agent?另外Dify中的工具和插件的区别是什么?
2025-04-14 20:05:06
898
原创 RAG之关键Embedding模型国内外大PK
什么是embedding呢?wikipedia的描述比较抽象,以下是腾讯混元T1的解释:Embedding模型是一种将高维数据(如文本、图像)映射到低维向量空间的技术,通过保留原始数据的语义和特征信息,实现高效计算与相似性分析。其核心原理是通过神经网络训练,将相似的数据点映射到向量空间中的相近位置,例如"猫"和"狗"的向量比"猫"和"苹果"的更接近,从而捕捉语义关联。在huggingface上有一个。
2025-04-13 10:45:00
1548
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人