- 博客(1564)
- 收藏
- 关注
原创 深入浅出:Agent如何调用工具——从OpenAI Function Call到CrewAI框架
在OpenAI的Function Call机制中,工具(函数)的定义需要提供详细的描述和参数schema。定义函数逻辑:编写实际执行任务的函数。编写函数描述:包括函数名称、功能描述、参数类型和说明。注册函数:在调用模型时,通过functions参数传递函数描述列表。"description": "计算两个数的和。","a": {"type": "number", "description": "第一个数"},
2025-01-19 11:00:00 416
原创 OpenAI重磅:首款AI Agent曝光!
前2天,OpenAI的一个全新子域名operator.chatgpt-staging.com被发现,这个便是Sam Altman在最新博客"reflections"中提到的重磅产品 —— OpenAI即将在2025年1月发布的首个AI Agent。这个消息一出,立刻引发了整个AI社区的热议。
2025-01-19 08:30:00 429
原创 构建Agentic RAG系统(四)Agentic Corrective RAG
Agentic Corrective RAG 通过动态纠正和优化检索结果,有效提升了生成质量,同时最大限度减少了因无关或错误文档带来的误导。它为 RAG 系统的可靠性、灵活性和效率提供了一种创新性解决方案。
2025-01-18 09:30:00 476
原创 构建Agentic RAG系统(三)查询规划型 Agentic RAG、自适应 RAG
查询规划型 Agentic RAG 方法通过智能分解查询、分布式处理和响应合成,能有效处理复杂查询。这种方法不仅增强了 LLM 的能力,还提高了信息检索的精度和时效性,确保最终输出是综合且符合用户需求的答案。
2025-01-18 08:00:00 527
原创 构建Agentic RAG系统(二)Agentic RAG 路由器
Agentic RAG 路由器将智能决策、强大的检索机制和 LLM 结合在一起,创建了一个多功能的查询响应系统。架构通过最佳方式将用户查询路由到适当的工具和数据源,确保响应的高相关性和准确性。无论是使用单一路由器还是多个路由器设置,设计都会根据系统的复杂性、可扩展性需求和应用要求进行优化。
2025-01-17 10:45:00 548
原创 构建Agentic RAG系统(一)Agentic RAG系统:RAG与AI Agent系统的结合
RAG(Retrieval-Augmented Generation,检索增强生成)是一个框架,旨在通过将外部知识源集成到生成过程,来增强生成式 AI 模型的表现。
2025-01-17 08:30:00 560
原创 RAG从入门到精通 | 基础RAG:Indexing索引、Retrieval检索和Generation生成
token 是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于英文文本来说,1 个 token 通常对应 3 至 4 个字母:
2025-01-17 08:00:00 735
原创 MiniRAG:1.5B小模型也能用的RAG框架来了,与GPT4效果相差不大
随着对高效轻量级检索增强生成(RAG)系统的需求日益增长,现有 RAG 框架在部署小型语言模型(SLMs)时面临重大挑战。由于 SLMs 在语义理解和文本处理能力上的局限,当前方法性能大幅下降,阻碍了其在资源受限场景中的广泛应用。为此,我们推出了 MiniRAG,一种专为极简高效设计的新型 RAG 系统。MiniRAG 带来了两项关键技术突破:(1)语义感知的异构图索引机制,将文本块和命名实体统一整合,降低了对复杂语义理解的依赖;(2)轻量级拓扑增强检索方法,利用图结构实现高效知识发现,无需高级语言能力。
2025-01-16 15:31:56 776
原创 探秘基于LLM的自主智能体:构建、应用与挑战全解析
自主智能体长期以来一直是学术界和工业界的研究焦点。以往的研究通常侧重于在孤立环境中训练知识有限的智能体,这与人类的学习过程有很大不同,使得智能体难以做出类人决策。近年来,通过获取大量网络知识,大型语言模型(LLMs)展现出了达到人类水平智能的潜力,导致基于LLM的自主智能体研究激增。在本文中,我们对这些研究进行了全面综述,从整体角度对基于LLM的自主智能体进行了系统回顾。我们首先讨论了基于LLM的自主智能体的构建,提出了一个涵盖先前大量工作的统一框架。
2025-01-16 14:33:07 922
原创 构建企业私有RAG大模型: (可商用)DeepSeek-V3开源部署,真的强吗?
我们提出了 DeepSeek-V3,这是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。
2025-01-16 14:08:40 836
原创 大模型行业报告 | 中国工业大模型行业发展研究报告&腾讯研究院:2024工业大模型应用报告(附PDF)
两份工业大模型行业发展报告PDF文档已打包。
2025-01-15 16:30:06 245
原创 阿里 Qwen-Agent:开源Agent开发框架简介
Qwen-Agent是一个专门设计用于开发基于大型语言模型(LLM)的应用程序的框架。它不仅支持指令遵循、工具使用、规划和记忆能力,还能够处理从8K到100万tokens的文档,超越了传统长上下文模型的限制。这意味着开发者可以利用Qwen-Agent构建出能够理解和生成自然语言、执行复杂任务的智能代理应用。
2025-01-15 10:36:38 627
原创 图解深度学习 - 前向传播和反向传播
这个过程是神经网络进行训练和推理的基础,也是后续反向传播过程的前提。根据损失函数计算梯度并更新网络参数以优化模型性能的过程,**网络中的权重和偏置进行线性变换,然后通过,得到每一层的输出。最终,输出层的输出即为神经网络的预测值。输入层接收数据:输入层是神经网络的第一层,它接收来自外部的数据。计算隐藏层输出:数据从输入层传递到隐藏层,隐藏层中的每个神经元都会接收来自上一层神经元的输入,并计算其加权和。加权和通过激活函数(如ReLU、Sigmoid、Tanh等)进行非线性变换,生成该神经元的输出。
2025-01-15 10:24:42 538
原创 利用垂直领域AI Agent实现产业转型
AI代理是由一个或多个语言模型(尤其是大型动作模型LAM)驱动的软件,使AI代理能够理解和解决复杂任务。与传统自动化不同,AI代理可以将问题分解为一系列步骤/子任务,并逐一处理。通过思想、评估、行动和观察的迭代循环,AI代理根据反馈调整其响应。AI代理还利用一系列工具与系统(如API或网络搜索)进行交互,其有效性由这些工具的多样性决定,使它们能够处理各种任务和执行复杂的流程。每个工具都有自然语言的描述,AI代理然后将手头的子任务与工具描述相匹配,以确定将哪个工具与哪个子任务相匹配。
2025-01-15 10:05:03 861
原创 RLHF实践经验:一些常见的思维误区
本文分享在学习和实践 RLHF 时,曾经陷入过的一些思维误区。这些误区的产生大多和我的强化基础知识理解不到位有关,我建议非强化出身的同学都耐心读读下面这些文章。
2025-01-14 20:17:21 611
原创 直观理解DeepSeek-V3关键技术之一:DeepSeekMoE
DeepSeekMoE 作为 DeepSeek-V3 的核心架构,通过无辅助损失的负载均衡策略、节点限制的路由机制和 FP8 训练支持,实现了高效的训练和推理。DeepSeekMoE 不仅在性能上表现出色,还在训练成本和推理效率上具有显著优势。通过动态调整专家负载和优化路由机制,DeepSeekMoE 为大规模语言模型的训练和部署提供了一种高效的解决方案。
2025-01-14 19:49:26 627
原创 Proactive Agent:主动读取需求,让AI比你更懂你
本文的目标是开发一个能够基于用户活动、环境事件和状态预测用户可能分配的任务的Agent,希望通过构建自动数据生成流程来增强 LLM 驱动的Agent的主动能力。下图展示了数据生成的全流程,核心在于通过模拟用户活动和环境变化来生成训练数据,这些数据将被用来训练和微调LLMAgent,使其能够更好地预测和提出任务。一旦预测被接受,模拟Agent在模拟环境中执行任务并生成新事件。1.环境健身房(Environment Gym):模拟特定背景设置中的事件,并更新环境状态。2.
2025-01-13 18:43:33 897
原创 大模型论文 | MKG-FENN:端到端神经网络融合多模态知识图谱,以进行准确的DDI预测
2024AAAI’24同时服用不相容的多种药物可能会引发不良的相互作用和副作用,对身体造成危害。为了避免这一问题,准确预测药物-药物相互作用(DDI)事件显得尤为重要。近年来,已经提出了多种基于人工智能的方法来预测 DDI 事件。然而,DDI 事件涉及药物、靶点、酶、运输蛋白、分子结构等之间复杂的关系和机制。现有的方法通常仅部分地或松散地考虑了这些关系和机制,并采用非端到端的学习框架,导致特征提取和融合效果不够理想。
2025-01-13 17:54:01 661
原创 多模态大模型建模的方法有哪些?
主要有两种,分别是就是将图像转为和原始文本token一样维度的embedding,然后再进入LLM前作拼接一起作为输入。如下面的左图。这个思路比较简单,且清晰。在注意力层直接集成图像和文本嵌入,就是将图片作为kv或者q,然后算一个cross attention即可,但是感觉这么做有个小问题,就是如果是多种模态的话可能就不好实现了。
2025-01-13 17:37:28 291
原创 OCR新体验!基于LLaMA视觉模型的强大OCR工具,支持批量处理与进度追踪,支持多种输出格式!
Ollama-OCR是一个基于 LLaMA 视觉模型的强大 OCR 工具,它不仅支持多种输出格式,还提供了批量处理、进度跟踪和图像预处理等实用功能。这款工具尤其适用于需要从图像中提取大量文本数据的项目,是提升工作效率和数据处理能力的利器。GitHub项目地址:https://github.com/imanoop7/Ollama-OCR。
2025-01-12 11:45:00 651
原创 谈谈大模型的注意力机制 | DeepSeek V3中的MLA(多头潜在注意力)与传统的MHA(多头注意力)特性、差异与简化实现
在Transformer模型中,注意力机制是其核心组成部分,它允许模型在处理序列数据时关注输入序列的不同部分。传统的多头注意力(MHA: Multi-head Attention)通过并行运行多个注意力头来捕捉输入序列中不同方面的关联。然而,MHA在计算和内存效率方面存在一定的局限性,尤其是在处理长序列时。DeepSeek V3中的多头潜在注意力(MLA: Multi-head Latent Attention)旨在解决这些问题,提供一种更高效的注意力机制。
2025-01-12 08:30:00 952
原创 LLM&Agent | PPTAgent:PPT自动生成Agent框架
来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法。PPTAgent 采用了一种基于编辑的生成范式,解决处理方面的挑战。传统方法的每个幻灯片 可以用以下公式表示:其中, 表示幻灯片上的元素数量, 表示由章节和图形组成的源内容。每个元素 由其类型、内容和样式属性(如边框、大小、位置等)定义。与传统的生成方法相比,PPTAgent 采用了一种基于编辑的生成范式,该方法生成一系列修改现有幻灯片的动作。
2025-01-11 11:15:00 742
原创 2025 AI Agent迷局:谁在玩真的,谁在演戏?
通往 AGI 的道路感觉更像是一段旅程,而不是一个目的地。但我认为Agent式工作流,可以帮助我们在这个非常漫长的旅程中向前迈进一小步。换句话说,即便我们暂时无法拥有“全能Agent”,但多个垂直领域的专业Agent逐渐出现,将让我们不断获得近似拥有Jarvis的体验。
2025-01-11 08:15:00 754
原创 288页 | 自然语言处理:基于预训练模型的方法(附完整版PDF)
自然语言处理被誉为“人工智能皇冠上的明珠”。深度学习等技术的引入为自然语言处理技术带来了一场革命,尤其是近年来出现的基于预训练模型的方法,已成为研究自然语言处理的新范式。。本书在介绍自然语言处理、深度学习等基本概念的基础上,重点介绍新的基于预训练模型的自然语言处理技术。这本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者,以及希望深入研究自然语言处理算法的计算机工程师阅读,也适合对人工智能、深度学习和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。
2025-01-10 17:45:25 708
原创 VideoRAG: 视觉对齐检索增强长视频理解
近期,一项由厦门大学和罗切斯特大学联合推出的研究Video-RAG在长视频理解领域取得突破。该方法巧妙地将视觉对齐的文本信息作为辅助文本作为输入,让72B的开源视觉语言模型(LVLM)也能达到商业模型的表现水平。这项研究为长视频理解提供了一个高效且实用的解决方案。相比现有方法,Video-RAG既保持了较高的性能表现,又大大降低了部署和使用成本。论文:https://arxiv.org/abs/2411.13093。
2025-01-10 12:12:46 675
原创 动态单元测试让代码生成准确率提升18% | LLM能发现医生的笔误吗?首个医疗错误检测基准数据集MEDEC告诉你答案
1、让AI写代码更靠谱!动态单元测试让代码生成准确率提升18%2、 LLM能发现医生的笔误吗?首个医疗错误检测基准数据集MEDEC告诉你答案。
2025-01-10 11:42:07 618
原创 使用LangChain、CrewAI、AutoGen搭建数据分析Agent
为了执行代码,我们将使用 PythonREPL(),并将其定义为 CrewAI 工具。
2025-01-09 14:01:04 786
原创 使用PyTorch实现Transformer的Encoder编码器
神经网络一定要多动手,多实践;把理论和实践相结合才能学得更好,更快。在前面关于Transformer架构的Encoder-Decoder,编码器-解码器结构的文章中介绍过,编码器和解码器是Transformer的核心结构,也是Transformer的载体;但而今天就来揭秘一下Transformer的编码器具体是怎么实现的。今天使用PyTorch神经网络框架实现Transformer的编码器;Transformer是一种实现神经网络的架构或者叫算法;
2025-01-09 11:48:45 763
原创 2.5 Years in Class:一个革命性的视觉语言预训练数据集 | 超越人类!大语言模型轻松预测神经科学实验结果
1、2.5 Years in Class:一个革命性的视觉语言预训练数据集2、无需人工标注!MLLM模型化身"安全法官",95%准确率识别有害图像。
2025-01-09 11:31:32 552
原创 聊聊大模型推理系统之 InfiniGen
InfiniGen为大语言模型推理的KV缓存管理提供创新有效方案,在提高推理性能和准确性方面表现出色,尤其处理长文本生成优势明显,为LLMs实际应用优化提供重要参考,有望推动相关领域发展。
2025-01-08 13:13:26 859
原创 谷歌刚刚发布 AI Agent 白皮书,2025 年agent时代已开启
理解扩展(Extensions)最简单的方法是把它们看作是以一种标准化的方式在应用程序编程接口(API)和智能体之间架起桥梁,让智能体能够无缝地执行各种API,而无需考虑其底层实现方式。agent如何与外部 API 交互?假设你构建了一个智能体,其目标是帮助用户预订航班。你知道你想要使用谷歌航班API来获取航班信息,但你不确定如何让你的智能体调用这个API端点。一种更具适应性的方法是使用扩展。
2025-01-08 11:41:16 598
原创 NVIDIA发布Cosmos平台:打造物理AI的“数字孪生世界“ | 7B模型在AIME数学竞赛中超越GPT-4,背后秘密是什么
1、NVIDIA重磅发布Cosmos平台:打造物理AI的"数字孪生世界"2、7B参数模型在AIME数学竞赛中超越GPT-4,背后的秘密是什么?
2025-01-08 11:23:58 1061
原创 SafeDrive:大语言模型实现自动驾驶汽车知识驱动和数据驱动的风险-敏感决策
24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。
2025-01-07 19:25:17 683
原创 nvlink对大模型推理的速度有多大提升?
先放结论,NVlink 对推理速度的提升非常大,非常非常大!这可能和高赞答案的结论不一样,且听我娓娓道来 :D最近在分析 RTX4090 上用 FP8 tensor core 跑 70B 模型的性能瓶颈,发现大模型推理过程中,很多时候通信是非常昂贵的一件事儿。NVLink,甚至 P2P,都会对推理有很大的加速效果。
2025-01-07 11:48:39 694
原创 大模型神经网络之注意力机制——attention
注意力机制是Transformer的核心,而注意力的目的却是特征提取Transformer架构对从事大模型领域的人来说应该不是一个陌生的词汇,而且大家应该都知道Transformer架构的核心点就在于其self-attention自注意力机制;虽然说Transofrmer架构的自注意力机制大名鼎鼎, 但真正了解注意力机制的人好像并不是很多,所以今天我们就来简单了解一下注意力机制。注意这里说的是注意力机制,不是自注意力机制。
2025-01-07 11:35:56 1204
原创 ACL 2024 | SMISTS:利用大语言模型模拟加强假新闻研究
心理接种是一种建立对有说服力的错误信息的抵抗力的策略,已被证明可以减少其传播和不良影响。虽然这些接种是有效的,但它们的设计和优化通常需要大量的财政和人力资源。为了应对这些挑战,本研究引入了模拟错误信息敏感性测试(SMIST),利用大语言模型来模拟参与者在错误信息研究中的反应。SMIST采用生活经验驱动的模拟方法,该方法考虑了参与者背景的各个方面,以减轻LLM模拟中漫画和刻板印象的常见问题,并增强反应多样性。
2025-01-06 20:30:35 1059
原创 首个真实竞赛级编程测试基准来了 | 小模型也能“平替“大模型!这个框架让AI在科学领域大显身手
1、首个真实竞赛级编程测试基准来了!OpenAI的表现竟超过90%的人类选手2、小模型也能"平替"大模型!这个框架让AI在科学领域大显身手。
2025-01-06 20:10:39 747
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人