自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(372)
  • 收藏
  • 关注

原创 【AI论文】随机应变:通过强化学习实现社交代理的自适应思考

有效的社交智能模拟要求语言代理能够动态调整推理深度,而这一能力在当前的方法中显著缺失。现有的方法要么缺乏这种推理能力,要么在所有场景中都强制执行统一的长思维链推理,导致标记(token)使用过量且社交模拟不恰当。在本文中,我们提出了自适应模式学习(Adaptive Mode Learning, AML)方法,该方法根据实时上下文从四种思考模式(直观反应→深度沉思)中策略性地选择。

2025-05-07 07:00:00 463

原创 【AI论文】FormalMATH:大型语言模型形式化数学推理能力基准测试

正式的数学推理仍然是人工智能面临的一个关键挑战,受到现有基准在范围和规模上的限制。为了解决这个问题,我们提出了FormalMATH,这是一个大规模的Lean4基准,包含5560个经过形式验证的问题,这些问题涵盖了从高中奥林匹克挑战到本科水平的定理,涉及不同的领域(如代数、应用数学、微积分、数论和离散数学)。

2025-05-06 18:00:00 436

原创 【AI论文】R1-Reward:通过稳定的强化学习训练多模态奖励模型

多模态奖励模型(MRMs)在增强多模态大语言模型(MLLMs)的性能方面发挥着至关重要的作用。虽然最近的进展主要集中在改进MRM的模型结构和训练数据上,但对奖励建模的长期推理能力的有效性以及如何在MRM中激活这些能力的探索有限。在本文中,我们探讨了如何使用强化学习(RL)来改进奖励建模。具体而言,我们将奖励建模问题重新表述为基于规则的强化学习任务。然而,我们观察到,直接应用现有的强化学习算法(如强化学习++)来奖励建模,由于这些算法的固有局限性,往往会导致训练不稳定甚至崩溃。

2025-05-06 11:45:37 996

原创 【AI论文】通过分层记忆提升图像生成的可编辑性

大多数现实世界的图像编辑任务需要多次连续编辑才能达到预期的效果。当前的编辑方法主要是为单个对象的修改而设计的,在顺序编辑方面存在困难:尤其是在保持之前的编辑的同时,将新的对象自然地融入到现有的内容中。这些限制严重阻碍了复杂的编辑场景,在这些场景中,需要在保留多个对象的上下文关系的同时对其进行修改。我们通过两个关键建议来解决这一根本挑战:启用粗略的掩码输入,在自然地集成新元素的同时保留现有内容,并支持跨多个修改的一致编辑。我们的框架通过分层存储来实现这一点,分层存储存储了来自先前编辑的潜在表示和提示嵌入。

2025-05-06 07:00:00 810

原创 【AI论文】像素修补师(PixelHacker):具有结构和语义一致性的图像修复(Image Inpainting)

图像修复是图像编辑和图像生成之间的一个基础研究领域。最近最先进的方法(SOTA)探索了新的注意力机制、轻量级架构和上下文感知建模,展示了令人印象深刻的性能。然而,他们经常在复杂的结构(如纹理、形状、空间关系)和语义(如颜色一致性、对象恢复和逻辑正确性)上遇到困难,导致伪影和不适当的生成。为了应对这一挑战,我们设计了一个简单而有效的修复范例,称为潜在类别指导,并进一步提出了一个基于扩散的模型,称为PixelHacker。

2025-05-05 21:00:00 641

原创 【AI论文】KeySync:一种在高分辨率下实现无泄漏唇形同步的稳健方法

唇同步,即把现有视频中的嘴唇动作与新的输入音频对齐的任务,通常被视为音频驱动面部动画的一个更简单的变体。然而,除了存在谈话头一代的常见问题(例如时间一致性)外,唇形同步还带来了新的重大挑战,例如输入视频中的表情泄漏和面部遮挡,这可能会严重影响自动配音等现实应用,但在现有工作中往往被忽视。为了解决这些缺点,我们提出了KeySync,这是一个两阶段框架,成功地解决了时间一致性问题,同时还使用精心设计的掩蔽策略,将泄漏和遮挡的解决方案结合起来。

2025-05-05 16:25:23 669

原创 【AI论文】Softpick:没有注意力汇点,没有使用修正后的 Softmax 的大规模激活

我们引入了softpick,这是一种经过修正的、非归一化的、可直接替换transformer注意力机制中softmax的替代品,消除了注意力汇和大量的激活。我们对340M参数模型的实验表明,softpick在标准基准测试中保持了与softmax相同的性能,同时实现了0%的收敛率。softpick 变换器产生的隐藏状态具有显著较低的峰度(340 对 33,510),并创建了稀疏的注意力图(46.97% 的稀疏度)。使用softpick的模型在量化时始终优于softmax,在较低的位精度下具有特别明显的优势。

2025-05-05 07:00:00 656

原创 【AI论文】Phi-4-reasoning技术报告

我们引入了Phi-4-reasoning,这是一种拥有140亿参数的推理模型,在复杂的推理任务中表现出了强大的性能。通过监督式微调Phi-4,在精心策划的“可教”提示集上进行训练,这些提示集是根据复杂性和多样性的适当水平选择的,并且使用o3-mini生成的推理演示,Phi-4推理生成详细的推理链,有效地利用推理时的计算。我们进一步开发了Phi-4-reasoning-plus,这是一种通过短期的基于结果的强化学习而增强的变体,通过生成更长的推理轨迹来提供更高的性能。

2025-05-04 18:45:00 1059

原创 【AI论文】COMPACT:从原子级到复杂级的组合式视觉能力调优

本研究首先定义了10种原子视觉能力,这些能力涵盖了视觉理解的基本方面,包括属性识别(如颜色、形状)、识别(如物体识别、动作识别、文本识别、空间识别、计数)和关系(如空间关系、物体交互、场景理解)。每种能力都对应着模型在视觉理解中需要掌握的一项基本技能。

2025-05-04 14:33:18 643

原创 【AI论文】T2I-R1:通过协作式语义级和标记级思维链(CoT)强化图像生成

大型语言模型的最新进展已经证明了思想链(CoT)和强化学习(RL)如何提高性能。然而,将这种推理策略应用于视觉生成领域在很大程度上仍未得到探索。在本文中,我们提出了T2I-R1,这是一种新的推理增强型文本到图像生成模型,由RL提供支持,具有双层CoT推理过程。具体而言,我们确定了两个级别的CoT,可用于增强生成的不同阶段:(1)语义级别的CoT,用于提示的高级规划;(2)标记级别的CoT,用于逐块生成过程中的低级像素处理。

2025-05-04 07:00:00 1065

原创 【AI论文】DeepCritic:使用大型语言模型进行有意识的批判

随着大型语言模型(LLMs)的快速发展,对其输出提供准确的反馈和可扩展的监督成为一个紧迫而关键的问题。利用LLM作为评判模型来实现自动化监督是一种有前景的解决方案。在这项工作中,我们专注于研究和提高LLM的数学批判能力。当前的LLM评论家对每一步的评论都过于肤浅和表面化,导致判断准确性低,难以提供足够的反馈给LLM生成器来纠正错误。为了解决这个问题,我们提出了一种新颖而有效的两阶段框架来开发LLM评论家,这些评论家能够有意识地批判数学解决方案的每个推理步骤。

2025-05-03 18:00:00 1152

原创 【AI论文】交互式生成视频综述

交互式生成视频(IGV)已成为一项关键技术,以应对各个领域对高质量交互式视频内容日益增长的需求。在本文中,我们将IGV定义为一种技术,它将生成能力与具有交互功能的多样化高质量视频内容相结合,通过控制信号和响应反馈实现用户参与。我们调查了IGV应用的当前格局,重点关注三个主要领域:1)游戏,IGV可以在虚拟世界中进行无限探索;2)具身人工智能,其中IGV作为一个物理感知环境合成器,用于训练代理与动态演化的场景进行多模态交互;以及3)自动驾驶,其中IGV为安全关键测试和验证提供了闭环仿真能力。

2025-05-03 12:44:29 1033

原创 【AI论文】Phi-4-Mini-推理:探索小型推理语言模型在数学领域的极限

思维链(Chain-of-Thought,简称CoT)技术通过训练大型语言模型(LLMs)明确生成中间推理步骤,显著提升了它们在形式化推理方面的能力。尽管LLMs能够轻松受益于此类技术,但由于小型语言模型(SLMs)的模型容量有限,提升其推理能力仍然具有挑战性。Deepseek-R1近期的研究表明,从LLMs生成的合成数据中进行蒸馏,可以显著提升SLMs的推理能力。然而,其详细的建模方法并未公开。

2025-05-03 07:00:00 905

原创 【AI论文】WebThinker:赋予大型推理模型深度研究能力

大型推理模型(LRMs),如OpenAI-o1和DeepSeek-R1,展示了令人印象深刻的长期推理能力。然而,他们对静态内部知识的依赖限制了他们在复杂的知识密集型任务上的表现,并阻碍了他们生成需要综合各种网络信息的综合研究报告的能力。为了解决这个问题,我们提出了WebThinker,这是一个深度研究代理,它使LRM能够在推理过程中自主搜索网络、浏览网页和起草研究报告。WebThinker集成了Deep Web Explorer模块,使LRM能够在遇到知识缺口时动态搜索、导航和提取网络信息。

2025-05-02 18:00:00 867

原创 【AI论文】Sadeed:通过小型语言模型推进阿拉伯语变音

由于语言的形态丰富,阿拉伯语文本的变音符号仍然是自然语言处理中一个持续的挑战。在本文中,我们介绍了一种基于微调解码器语言模型的新方法Sadeed,该方法改编自Kuwain 1.5B Hennara等人[2025]的模型,该模型最初是在不同的阿拉伯语语料库上训练的紧凑模型。Sadeed 经过精心策划的高质量变音数据集的微调,这些数据集是通过严格的数据清理和规范化管道构建的。尽管使用了适度的计算资源,但与专有的大型语言模型相比,Sadeed取得了具有竞争力的结果,并且优于在类似领域训练的传统模型。

2025-05-02 12:29:12 1101

原创 【AI论文】ReasonIR:为推理任务训练检索器

我们提出了ReasonIR-8B,这是第一个专门针对一般推理任务进行训练的检索器。现有的检索器在推理任务上表现出的收益有限,部分原因是现有的训练数据集侧重于与直接回答它们的文档相关的简短事实查询。我们开发了一个合成数据生成管道,对于每个文档,我们的管道都会创建一个具有挑战性和相关性的查询,以及一个看似相关但最终无益的否定性查询。

2025-05-01 18:00:00 1080

原创 【AI论文】仅通过一个训练样本对大型语言模型进行推理的强化学习

我们表明,使用一个训练示例(1-shot RLVR)进行具有可验证奖励的强化学习,在激励大型语言模型(LLM)的数学推理能力方面是有效的。将RLVR应用于基础模型Qwen2.5-Math-1.5B,我们确定了一个例子,将模型在MATH500上的性能从36.0%提高到73.6%,并将六个常见数学推理基准的平均性能从17.6%提高到35.7%。这一结果与使用1.2k DeepScaleR子集(MATH500:73.6%,平均:35.9%)所获得的性能相匹配,其中包括上述示例。

2025-05-01 12:00:00 790

原创 【AI论文】UniversalRAG:基于多种模态和粒度的多语料库的检索增强生成

检索增强生成(RAG)通过将模型响应与与查询相关的外部知识相结合,在提高事实准确性方面显示出巨大的前景。然而,大多数现有的RAG方法仅限于纯文本语料库,虽然最近的研究已将RAG扩展到图像和视频等其他形式,但它们通常在单一特定形式的语料库上运行。相比之下,现实世界的查询在所需知识的类型上差异很大,单一类型的知识源无法解决。为了解决这个问题,我们引入了UniversalRAG,这是一种新颖的RAG框架,旨在从具有不同形式和粒度的异构源中检索和整合知识。

2025-05-01 07:00:00 965

原创 【AI论文】CipherBank:通过密码学挑战探索LLM推理能力的边界

大型语言模型(LLMs)已经展现出非凡的能力,尤其是最近在推理方面的进步,如o1和o3,推动了人工智能的发展。尽管在数学和编码方面取得了令人印象深刻的成就,但在需要密码学专业知识的领域,LLMs的推理能力仍然有待探索。在本文中,我们介绍了CipherBank,这是一个全面的基准,旨在评估LLM在密码解密任务中的推理能力。CipherBank由2358个精心设计的问题组成,涵盖了5个域和14个子域中的262个独特的明文,重点关注需要加密的隐私敏感和现实场景。

2025-04-30 18:00:00 900

原创 【AI论文】RepText:通过复制渲染视觉文本

模型架构设计:本文设计了一种基于ControlNet的框架,并引入了语言无关的符号和渲染文本的位置信息作为额外的控制条件。这些控制条件通过VAE编码器进行处理,并与文本编码器的输出进行拼接,共同指导图像生成过程。损失函数设计:为了提高文本生成的准确性,本文引入了文本感知损失(Text Perceptual Loss),并将其与扩散损失(Diffusion Loss)相结合,共同构成模型的训练目标。文本感知损失通过OCR模型计算生成文本与真实文本之间的特征差异,从而指导模型优化文本生成过程。推理策略优化。

2025-04-30 12:00:00 868

原创 【AI论文】电话自动化中由LLM驱动的GUI代理:调查进展和前景

随着大型语言模型(LLMs)的迅速崛起,电话自动化发生了革命性的变化。本文系统地回顾了LLM驱动的电话GUI代理,重点介绍了它们从基于脚本的自动化到智能自适应系统的演变。我们首先将关键挑战(i)有限的普遍性,(ii)高维护开销和(iii)弱意图理解置于语境中,并展示了LLM如何通过高级语言理解、多模态感知和稳健决策来解决这些问题。然后,我们提出了一个分类法,涵盖了基本的代理框架(单代理、多代理、计划然后行动)、建模方法(提示工程、基于训练)以及基本数据集和基准。

2025-04-30 07:00:00 618

原创 【AI论文】BitNet v2:针对1位LLM的原生4位激活和哈达玛变换

摘要:激活异常值阻碍了1位大型语言模型(LLM)的有效部署,这使得低比特宽度的量化变得复杂。 我们介绍了BitNet v2,这是一个新的框架,支持1位LLM的原生4位激活量化。 为了解决注意力和前馈网络激活中的异常值,我们提出了H-BitLinear,这是一个在激活量化之前应用在线哈达玛变换的模块。 这种转换将尖锐的激活分布平滑为更像高斯的形式,适合低位表示。 实验表明,从零开始训练的BitNet v2(采用8位激活)与BitNet b1.58的性能相当。 至关重要的是,BitNet v2在使用原生4位激活

2025-04-29 18:00:00 612

原创 【AI论文】Skywork R1V2:用于推理的多模态混合强化学习

我们展示了Skywork R1V2,这是下一代多模态推理模型,也是其前身Skywork R1V的重大飞跃。R1V2的核心是引入了一种混合强化学习范式,将奖励模型指导与基于规则的策略相协调,从而解决了长期以来在复杂的推理能力和广泛的泛化能力之间取得平衡的挑战。为了进一步提高训练效率,我们提出了选择性样本缓冲(SSB)机制,该机制通过在整个优化过程中优先考虑高价值样本,有效地解决了组相对策略优化(GRPO)中固有的“消失优势”困境。

2025-04-29 12:00:00 969

原创 【AI论文】理解任何视频中的相机运动

我们介绍了CameraBench,这是一个大规模的数据集和基准,旨在评估和改进对相机运动的了解。CameraBench由约3000个不同的互联网视频组成,由专家通过严格的多阶段质量控制过程进行注释。我们的贡献之一是与电影摄影师合作设计的相机运动原语的分类。例如,我们发现一些动作,如“跟随”(或跟踪),需要理解场景内容,如移动的物体。我们进行了一项大规模的人类研究,以量化人类注释性能,揭示了领域专业知识和基于教程的培训可以显著提高准确性。

2025-04-29 07:00:00 654

原创 【AI论文】PHYBench:大型语言模型中物理感知与推理能力的全面评估

我们介绍了一种新颖的高质量基准,即PHYBench,旨在评估大型语言模型(LLMs)在物理环境中的推理能力。PHYBench由500个精心策划的物理问题组成,这些问题基于现实世界的物理场景,旨在评估模型理解和推理现实物理过程的能力。该基准涵盖了力学、电磁学、热力学、光学、现代物理学和高等物理学,难度范围从高中练习到本科问题和物理奥林匹克竞赛挑战。

2025-04-28 18:00:00 702

原创 【AI论文】通过心理意象模拟实现视觉语言模型中的视角感知推理

我们提出了一种通过心理意象模拟实现视觉语言模型(VLMs)中视角感知推理的框架。换位思考,即从替代视角感知环境或情境的能力,是衡量人类水平视觉理解的关键基准,对于环境交互和与自主代理的合作至关重要。尽管VLMs在空间推理方面取得了进展,但最近的研究表明,现代VLMs在视角感知推理能力方面存在显著不足,并表现出强烈的以自我为中心的解读偏向。为了弥合VLMs与人类感知之间的差距,我们专注于心理意象的作用,即人类通过抽象表示来感知世界,从而促进视角转换。

2025-04-28 12:00:00 775

原创 【AI论文】打破模态障碍:使用多模态LLM进行通用嵌入学习

对比语言图像预训练(CLIP)框架已经成为一种广泛使用的多模态表示学习方法,特别是在图像文本检索和聚类方面。然而,它的有效性受到三个关键限制的约束:(1)文本标记截断,(2)孤立的图像文本编码,以及(3)由于词袋行为导致的组合性不足。虽然最近的多模态大语言模型(MLLMs)在广义视觉语言理解方面取得了重大进展,但它们在学习可转移的多模态表示方面的潜力仍然未得到充分挖掘。在这项工作中,我们提出了UniME(通用多模态嵌入),这是一种新颖的两阶段框架,利用MLLM来学习用于各种下游任务的判别表示。

2025-04-28 07:00:00 956

原创 【AI论文】Paper2Code:从机器学习科学论文中自动化代码生成

PaperCoder是一个多代理LLM框架,用于将机器学习论文转化为功能代码库。该框架分为三个阶段:规划、分析和生成。每个阶段都通过一组专门设计的代理进行实例化,这些代理旨在在整个管道中有效地协作。规划阶段:该阶段负责构建高级路线图,设计系统架构,识别文件依赖关系,并生成配置文件。具体来说,规划代理会读取论文内容,提取关键信息,如数据集、模型架构、实验设置等,并基于这些信息生成系统的整体设计。通过图表(如类图和序列图)展示系统架构和组件间的交互关系,有助于后续的分析和代码生成工作。分析阶段。

2025-04-27 12:00:00 755

原创 【AI论文】RefVNLI:迈向可扩展的主题驱动文本到图像生成评估

主题驱动的文本到图像(T2I)生成旨在生成与给定文本描述一致的图像,同时保留参考主题图像的视觉特征。尽管该领域具有广泛的下游适用性——从增强图像生成的个性化到视频渲染中一致的角色表示——但该领域的进展受到缺乏可靠的自动评估的限制。现有的方法要么只评估任务的一个方面(即文本对齐或主题保留),与人类判断不一致,要么依赖于昂贵的基于API的评估。为了解决这个问题,我们引入了RefVNLI,这是一种经济有效的度量方法,可以在一次预测中同时评估文本对齐和主题保留。

2025-04-27 12:00:00 1022

原创 【AI论文】Step1X-Edit:一个实用的通用图像编辑框架

近年来,图像编辑模型取得了显著而快速的发展。最近推出的尖端多模态模型,如GPT-4o和Gemini2 Flash,引入了非常有前景的图像编辑功能。这些模型在满足绝大多数用户驱动的编辑要求方面表现出令人印象深刻的能力,标志着图像处理领域的重大进步。然而,开源算法与这些闭源模型之间仍存在很大差距。因此,在本文中,我们的目标是发布一个最先进的图像编辑模型,称为Step1X-Edit,它可以提供与GPT-4o和Gemini2 Flash等闭源模型相当的性能。

2025-04-27 07:00:00 900

原创 【AI论文】Tina:通过LoRA的微小推理模型

如何在语言模型中实现成本效益高的强大推理能力?在这个基本问题的驱动下,我们提出了Tina,这是一个以高成本效益实现的小型推理模型家族。值得注意的是,Tina 证明了仅使用最少的资源就可以开发出大量的推理性能,方法是在强化学习(RL)过程中应用参数高效的更新,使用低秩自适应(LoRA),对已经非常小的 15 亿参数基础模型进行更新。这种极简主义方法产生的模型实现了与基于相同基础模型的SOTA RL推理模型相媲美,有时甚至超越的推理性能。至关重要的是,这只需要现有SOTA模型所使用的计算后训练成本的一小部分。

2025-04-26 18:00:00 1143

原创 【AI论文】DreamID:基于高保真和快速扩散的三元组ID组学习的人脸交换

在本文中,我们介绍了DreamID,这是一种基于扩散的人脸交换模型,可以实现高水平的ID相似性、属性保留、图像保真度和快速推理速度。与典型的面部交换训练过程不同,面部交换训练过程通常依赖于隐式监督,并且很难达到令人满意的结果。DreamID通过构建三元组ID组数据,对人脸交换进行明确监督,显著提高了身份相似性和属性保留。扩散模型的迭代性质对利用高效的图像空间损失函数提出了挑战,因为在训练过程中执行耗时的多步采样以获得生成的图像是不切实际的。

2025-04-26 12:00:00 1672

原创 【AI论文】VisuLogic:评估多模态大语言模型中视觉推理的基准

视觉推理是人类智能的核心组成部分,也是高级多模态模型的关键能力。然而,目前对多模态大型语言模型(MLLM)的推理评估往往依赖于文本描述,并允许基于语言的推理捷径,无法衡量真正的以视觉为中心的推理。为了解决这个问题,我们引入了VisuLogic:一个包含六个类别(例如,定量变化、空间关系、属性比较)的1000个人工验证问题的基准。可以评估这些不同类型的问题,以从多个角度评估MLLM的视觉推理能力。我们在这个基准上评估了领先的MLLM,并分析了它们的结果,以识别常见的故障模式。

2025-04-26 07:00:00 846

原创 【AI论文】从2000多个多语言基准测试中汲取的苦涩教训

随着大型语言模型(LLMs)在语言能力方面的不断进步,稳健的多语言评估已成为促进公平技术进步的关键。本立场文件审查了2021年至2024年间发布的来自148个国家的2000多个多语言(非英语)基准,以评估多语言基准测试的过去、现在和未来的实践。我们的研究结果表明,尽管投入了数千万美元的巨额投资,但英语在这些基准测试中的代表性仍然明显过高。此外,大多数基准测试依赖于原始语言内容而非翻译,其中大多数来自中国、印度、德国、英国和美国等资源丰富的国家。此外,将基准测试性能与人类判断进行比较,突显了明显的差异。

2025-04-25 18:00:00 2117

原创 【AI论文】TTRL:测试时强化学习(Test-Time Reinforcement Learning)

TTRL方法的核心思想是在测试时间利用强化学习技术来优化大型语言模型的性能。具体来说,该方法通过生成多个候选输出,并使用多数投票等方法来估计真实标签,从而计算奖励信号,进而指导模型的自我优化过程。

2025-04-25 12:00:00 804

原创 【AI论文】Kuwain 1.5B:通过语言注入的阿拉伯语 SLM

用新知识增强现有模型是人工智能发展的一个重要方面。本文介绍了一种将新语言集成到大型语言模型(LLM)中的新方法。我们的方法成功地将以前未见过的目标语言整合到现有的LLM中,而不会影响其先验知识。我们通过将阿拉伯语注入一个主要用英语训练的小型开源模型中,训练了一个名为Kuwain的15亿参数的小模型。我们的方法在阿拉伯语性能方面取得了显著改进,在各种基准测试中平均提高了8%,同时以最少的原始模型数据保留了模型的现有知识。这为用英语和阿拉伯语训练一个综合模型提供了一个经济有效的替代方案。

2025-04-25 07:00:00 604

原创 【AI论文】ToolRL:奖励是工具学习所需的一切

本文首先定义了TIR任务,并概述了用于指导模型训练的一般原则。TIR任务涉及LLMs通过集成外部工具来解决用户任务。一个典型的TIR轨迹包括多个工具调用步骤,每个步骤都涉及自然语言推理、工具调用和接收观察结果。模型的目标是在每个步骤中选择一组能够最大化即时奖励的工具。

2025-04-24 18:00:00 778

原创 【AI论文】FlowReasoner:强化查询级别的元代理

本文提出了一种名为FlowReasoner的查询级元代理,用于自动化查询级多代理系统的设计,即每个用户查询一个系统。我们的核心思想是通过外部执行反馈激励基于推理的元代理。具体而言,通过提取DeepSeek R1,我们首先赋予FlowReasoner关于生成多代理系统的基本推理能力。然后,我们通过具有外部执行反馈的强化学习(RL)进一步增强它。设计了一种多用途奖励,旨在从性能、复杂性和效率方面指导RL训练。通过这种方式,FlowReasoner能够通过慎思推理为每个用户查询生成个性化的多代理系统。

2025-04-24 12:00:00 815

原创 【AI论文】Eagle 2.5:增强前沿视觉-语言模型的长上下文后训练

我们介绍了Eagle 2.5,这是一个用于长上下文多模态学习的前沿视觉语言模型(VLM)系列。我们的工作解决了长视频理解和高分辨率图像理解中的挑战,为这两项任务引入了一个通才框架。所提出的训练框架结合了自动降级采样和图像区域保留,这两种技术可以保持上下文完整性和视觉细节。该框架还包括许多针对长上下文数据训练的管道效率优化。最后,我们提出了Eagle-Video-110K,这是一个新颖的数据集,集成了故事级和剪辑级注释,促进了长视频的理解。

2025-04-24 07:00:00 977

原创 【AI论文】在非政策指导下学习推理

大型推理模型(LRM)的最新进展表明,通过基于简单规则的奖励的强化学习(RL),可以出现多步推理和自我反思等复杂行为。然而,现有的零RL方法本质上是“按策略”的,将学习限制在模型自身的输出上,无法获得超出其初始能力的推理能力。我们引入了 LUFFY(在非政策指导下学习推理),这是一个用非政策推理痕迹增强零强化学习的框架。在训练过程中,鲁夫通过将非策略演示与策略演示相结合,动态平衡了模仿和探索。值得注意的是,我们建议通过正则化重要性抽样来塑造政策,以避免在混合政策训练过程中出现肤浅和僵化的模仿。

2025-04-23 16:59:17 676

### 【图像生成领域】GPT-ImgEval:评估GPT-4o图像生成能力的全面基准测试系统设计与分析

内容概要:本文介绍了GPT-ImgEval,这是首个全面评估GPT-4o图像生成能力的基准测试工具。GPT-4o是OpenAI最新发布的多模态大模型,在图像生成、编辑和视觉语言推理方面表现出色。GPT-ImgEval从三个关键维度评估GPT-4o:生成质量(通过GenEval数据集)、编辑熟练度(通过Reason-Edit数据集)以及基于世界知识的语义合成(通过WISE数据集)。研究发现,GPT-4o在这些任务上显著超越了现有方法,展示了强大的生成控制能力和输出质量。此外,文章还探讨了GPT-4o可能采用的底层架构,提出了基于分类模型的方法来区分自回归和扩散解码器,并推测其内部使用了扩散头进行图像解码。研究还揭示了GPT-4o在生成过程中的一些局限性,如尺寸不一致、高分辨率和过度细化的限制、复杂场景处理困难等。最后,文章对比了GPT-4o与Gemini 2.0 Flash在多轮图像编辑方面的表现,并讨论了GPT-4o生成图像的安全性和可检测性。 适合人群:对图像生成技术感兴趣的科研人员、开发者和工程师。 使用场景及目标:①评估和比较不同图像生成模型的性能;②深入理解GPT-4o的内部架构及其优缺点;③为未来的研究提供可靠的基准测试工具和方法。 其他说明:GPT-ImgEval提供了详细的定量和定性评估结果,帮助研究人员更好地理解和改进图像生成技术。此外,作者还开源了用于评估GPT-4o的自动化脚本和数据集,以便社区进一步研究和应用。

2025-04-04

### 【计算机视觉】RISEBench:评估推理驱动的视觉编辑能力的基准测试系统设计与分析

内容概要:本文介绍RISEBench——首个用于评估多模态模型(LMMs)推理引导视觉编辑(RISE)能力的基准测试。RISEBench专注于四种关键推理类型:时间推理、因果推理、空间推理和逻辑推理。它提供了一套高质量的测试用例和评价框架,涵盖指令推理、外观一致性以及视觉合理性。研究结果显示,尽管GPT-4o-Native在多个维度上表现最佳,但即使是当前最先进的模型在逻辑推理任务中仍存在明显不足。这突显了逻辑推理作为未来研究的重要方向。此外,RISEBench致力于持续扩展和改进,以支持更全面、可靠且可扩展的下一代多模态系统评估。 适合人群:对多模态模型、计算机视觉及图像生成领域有兴趣的研究人员和技术开发者。 使用场景及目标:①评估不同模型在推理引导视觉编辑任务中的表现;②为研究人员提供一个系统化评估和改进模型推理能力的基础工具;③推动未来多模态模型的发展,特别是在逻辑推理方面的能力提升。 其他说明:RISEBench不仅提供了详细的评分指南,还设计了一个基于LMM的自动评估管道,以确保评价结果的一致性和准确性。此外,作者团队承诺将继续完善该基准测试,使其能够适应更多样化的应用场景和技术进步。

2025-04-04

论文:人工智能基于脑启发智能的多模块智能体设计与挑战:从认知到协作的全基础智能体(Foundation Agents)领域的进展与挑战:从类脑智能到进化型、协作型及安全型系统面综述

内容概要:本文综述了智能体领域从脑启发智能到进化、协作和安全系统的最新进展与挑战。文章首先介绍了大型语言模型(LLMs)的发展及其对智能体设计、评估和持续改进的影响,强调了模块化、脑启发架构的重要性。随后,文章详细探讨了智能体在个人助手系统、游戏环境、机器人流程自动化(RPA)和多媒体内容生成等领域的应用,特别是在视觉感知方面的进步。此外,文中还讨论了智能体面临的挑战,如模型误判、数据集多样性不足、硬件性能差异以及供应链攻击等问题。最后,文章提出了多种应对策略,包括数据增强、不确定性估计、生物启发学习框架等。 适合人群:对人工智能、特别是智能体技术感兴趣的科研人员、工程师和研究生。 使用场景及目标:①了解智能体在不同应用场景中的最新进展;②掌握智能体设计、评估和改进的关键技术和挑战;③探索智能体在未来研究和实际应用中的潜力和发展方向。 其他说明:本文不仅涵盖了智能体的技术细节,还深入探讨了其面临的伦理和安全问题,为未来的研究提供了全面的视角。阅读时应重点关注智能体的设计原则、应用场景和技术挑战,以便更好地理解和应对这一领域的复杂性。

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除