东临碣石82-CSDN博客

原创【AI论文】不要只看一次：通过选择性视觉重访实现多模态交互推理

摘要：本研究提出v1扩展，一种轻量级多模态大语言模型（MLLM）增强方案，通过"点对点"复制机制实现推理过程中的动态视觉重访。传统MLLM存在单次视觉输入后纯记忆推理的局限，v1允许模型基于当前假设动态检索相关图像区域。研究构建了包含30万条多模态推理轨迹的v1g训练数据集，并在MathVista等三个数学推理基准测试中验证了其有效性。实验表明v1在细粒度视觉参考和多步推理任务上显著优于基线模型，最高准确率提升达11%。该成果为增强多模态推理能力提供了新思路，代码和数据已开源供后续研究。

2025-06-05 18:00:00 238

原创【AI论文】时间盲症：为何视频语言模型无法像人类一样“看见”？

摘要：视觉语言模型(VLMs)在处理模糊空间信息的时间序列数据时面临显著挑战。本研究提出SpookyBench基准测试，通过类似噪声的帧序列评估模型时间感知能力。结果显示人类识别准确率超过98%，而所有先进VLMs准确率为0%，揭示模型过度依赖空间特征的局限性。实验表明，低空间信噪比条件下模型时间理解能力急剧退化，现有架构难以分离空间与时间处理。研究指出这一局限与模型规模无关，呼吁开发新的训练范式。SpookyBench的发布旨在促进时间模式识别研究，弥合人机视频理解差距。相关数据集和代码已开源。

2025-06-05 12:00:00 552

原创【AI论文】AlphaOne：推理模型在测试时兼具慢思考与快思考能力

摘要：AlphaOne（α1）是一种新型通用框架，旨在优化大型推理模型的测试时推理过程。该框架通过引入α时刻概念，采用伯努利随机过程动态调度慢思考转换，并在关键阶段切换为快速推理模式，实现了推理效率与准确性的平衡。实验表明，α1在数学、编码和科学推理任务中显著提升模型性能（准确率提升4.65%-6.15%），同时减少约14%的计算资源消耗。该研究为动态调节AI推理过程提供了创新解决方案，其代码和论文已开源。

2025-06-05 07:00:00 680

原创【AI论文】ProRL：延长的强化学习扩展了大型语言模型的推理边界

摘要：本研究挑战了强化学习（RL）仅放大语言模型已有能力的观点，提出通过Prolonged RL（ProRL）训练可发现全新推理策略。ProRL方法整合KL散度控制、策略重置和多样化任务，在16,000 GPU小时的训练后，模型在数学、代码等任务上pass@1准确率提升14.7%-54.8%，特别解决了基础模型完全失败的场景。研究表明RL能持续扩展推理边界，其效果取决于基础模型能力和训练时长。虽然存在计算成本高等局限，但研究证明了RL对语言模型推理能力的有意义提升，为后续研究奠定基础。模型权重已开源。

2025-06-04 18:00:00 741

原创【AI论文】VideoReasonBench：多模态大语言模型（MLLMs）能否执行以视觉为中心的复杂视频推理？

摘要：研究提出VideoReasonBench基准，用于评估多模态大语言模型(MLLMs)在以视觉为中心的复杂视频推理任务中的表现。该基准包含240个视频和1440个问题，要求模型完成三个层次的推理任务：回忆视觉信息、推断潜在状态和预测未来状态。评估18个先进MLLMs的结果显示，大多数模型表现不佳（GPT-4o准确率仅6.9%），但思维增强的Gemini-2.5-Pro达到56.0%准确率。研究表明扩展思维预算对提升视频推理性能至关重要，而现有基准在评估视觉推理能力方面存在不足。研究为视频推理领域提供了新

2025-06-04 12:00:00 1198

原创【AI论文】ZeroGUI：零人力成本自动化在线GUI学习

摘要：ZeroGUI提出了一种创新的在线学习框架，用于自动化GUI代理训练，完全消除人工标注需求。该框架通过集成大型视觉语言模型（VLM）实现三大创新：自动任务生成、自动奖励评估和两阶段强化学习。实验表明，在OSWorld和AndroidLab环境中，ZeroGUI使基准模型UI-TARS-7B-DPO和Aguvis-7B的成功率分别提升14%-40%和63%-88%。框架采用GPT-4o生成多样化训练任务，Qwen2.5-VL-32B进行投票式奖励评估，并改进GRPO算法实现稳定训练。虽然存在VLM知识局

2025-06-04 07:00:00 1134

原创【AI论文】VF-Eval：评估多模态大型语言模型（MLLM）在生成人工智能生成内容（AIGC）视频反馈方面的能力

摘要：本文提出VF-Eval基准测试，首次系统评估多模态大语言模型(MLLMs)在AI生成视频(AIGC)上的性能。研究构建包含4个任务（连贯性验证、错误识别、类型检测和推理评估）的评测框架，对13个先进MLLMs进行测试。关键发现表明：1）当前最佳模型GPT-4.1仍难以全面处理AIGC视频；2）模型在质量评估优于常识推理，道德违规识别存在明显短板；3）通过RePrompt实验验证人类反馈对齐可提升视频生成质量。研究揭示了MLLMs解读合成视频的局限性，为未来改进指明方向。

2025-06-03 18:00:00 1516 1

原创【AI论文】空间多模态大型语言模型（Spatial-MLLM）：增强基于视觉的空间智能中多模态大型语言模型（MLLM）的能力

摘要：本文提出Spatial-MLLM框架，通过双编码器架构（语义编码器+空间编码器）从纯2D视频中提取3D空间信息，结合创新的空间感知帧采样策略，在仅使用16帧输入的情况下，实现了超越Gemini-1.5Pro等大型模型的空间推理性能。研究构建了120k规模的数据集，采用监督微调和GRPO算法训练模型，在VSI-Bench等基准测试中达到SOTA水平。该工作为基于2D视觉的空间智能任务提供了新的解决方案，同时指出了模型规模扩展和实时性优化等未来方向。项目资源已开源。

2025-06-03 12:00:00 848

原创【AI论文】攀登比登顶更能刻下智慧：论学习推理的嘈杂回报

摘要：本研究探讨了强化学习（RL）训练大型语言模型（LLM）时奖励噪声的影响及应对策略。实验表明，LLM对数学任务中高达40%的奖励噪声表现出显著鲁棒性，Qwen-2.5-7B模型的准确率仍可达72%。创新性地提出"推理模式奖励（RPR）"方法，仅奖励关键推理短语（如"首先，我需要"）而不验证答案正确性，模型性能（70%准确率）接近传统严格验证方法（75%）。在开放NLP任务中，RPR有效校准了噪声奖励模型，将低准确率（65%）奖励模型下的性能提升至高准确率（85%）

2025-06-03 07:00:00 1099

原创【AI论文】表R1：表格推理的推理时间扩展

在这项工作中，我们提出了第一个研究，探索推理时间缩放对表格推理任务的影响。我们开发和评估了两种训练后策略来实现推理时间扩展：前沿模型推理轨迹的蒸馏和具有可验证奖励的强化学习（RLVR）。对于蒸馏，我们引入了一个由DeepSeek-R1生成的大型推理跟踪数据集，我们用它来将LLM微调到Table-R1-SFT模型中。对于RLVR，我们提出了特定于任务的可验证奖励函数，并应用GRPO算法来获得Table-R1-Zero模型。

2025-06-02 18:00:00 976

原创【AI论文】视觉语言模型中的自我修正推理

摘要：本研究针对视觉语言模型(VLMs)面临的推理错误敏感、数据依赖性强和泛化能力有限等问题，提出了Sherlock自我纠正框架。通过分析现有VLMs的自我纠正能力，研究者设计了三阶段训练方法：利用少量标注数据冷启动，构建基于视觉扰动的偏好数据集进行离线训练，并进行在线迭代自我改进。实验表明，Sherlock在8个基准测试中平均准确率达65.4，优于现有方法且仅需20%的标注数据。该框架创新性地引入轨迹级自我纠正目标和动态贝塔调整，实现了推理与纠正能力的协同提升，为多模态推理任务提供了高效解决方案。研究代码

2025-06-02 12:00:00 1191

原创【AI论文】Skywork Open Reasoner 1技术报告

摘要：本研究提出Skywork-OR1强化学习方案，显著提升长思维链（CoT）模型的推理能力。基于DeepSeek-R1-Distill模型，32B和7B参数模型在AIME和LiveCodeBench基准测试上分别提升15.0%和13.9%准确率。研究发现控制熵崩溃现象对性能提升至关重要，并通过多阶段训练、高温采样等策略优化训练过程。Skywork-OR1在多个基准测试上超越同类模型，同时开源了模型权重和训练代码以促进社区研究。研究还分析了训练数据质量、计算资源需求等局限性，为未来优化强化学习在语言模型中的

2025-06-02 07:00:00 610

原创【AI论文】R2R：通过小型与大型模型之间的令牌路由高效导航发散推理路径

大型语言模型(LLMs)推理能力出色但成本高昂。研究发现仅有少量关键标记会导致小语言模型(SLMs)与LLMs的推理路径偏离。为此，我们提出罗马之路(R2R)神经令牌路由方法，通过轻量级路由器自动识别关键分歧标记，仅在这些标记上调用LLMs，其余仍由SLMs处理。实验表明，R2R在数学、编程和问答任务中，以5.6B平均激活参数实现了R1-7B模型1.6倍的准确率，性能媲美R1-32B的同时获得2.8倍加速。该方法在测试时间效率上达到了帕累托前沿，为平衡模型性能与推理成本提供了新思路。

2025-06-01 20:00:00 933

原创【AI论文】SWE-rebench：一个用于软件工程代理的任务收集和净化评估的自动化管道

基于LLM的代理在越来越多的软件工程（SWE）任务中显示出有前景的能力。然而，推进这一领域面临着两个关键挑战。首先，高质量的训练数据稀缺，尤其是反映现实世界软件工程场景的数据，在这些场景中，代理必须与开发环境交互，执行代码并根据其行为结果调整行为。现有的数据集要么局限于一次性的代码生成，要么包含小型的、人工策划的交互式任务集合，缺乏规模和多样性。

2025-06-01 18:45:00 857

原创【AI论文】推理语言模型的强化学习熵机制

本文针对强化学习应用于大语言模型推理时出现的策略熵崩溃问题展开研究。通过实证分析发现，策略熵与下游性能存在R=-a*e^H+b的定量关系，表明熵耗尽会限制性能提升。理论分析揭示熵变化由行动概率与对数变化协方差驱动，实证验证了协方差驱动熵单调下降的机制。为此，作者提出Clip-Cov和KL-Cov两种熵控制方法，通过限制高协方差标记的更新保持策略多样性。实验证明这些方法能有效维持探索能力，在数学和编程任务上取得显著性能提升。研究为RL在LLM推理中的熵管理提供了新思路。（150字）

2025-06-01 14:23:46 883

原创【AI论文】MME-推理：多模态大型语言模型（MLLMs）逻辑推理的综合基准

针对当前多模态大型语言模型(MLLMs)在逻辑推理评估中的不足，研究者提出了MME-Reasoning基准，全面覆盖归纳、演绎和溯因三种推理类型。研究结果显示，即使最先进的MLLMs（如Gemini-2.5-Pro-Thinking）在综合推理测试中表现有限（平均60.2%），且在不同推理类型上存在明显性能差异：演绎推理表现较好，而溯因推理较差。研究还发现"思维模式"能部分提升推理能力，但基于规则的强化学习效果不佳。该研究揭示了当前MLLMs在多样化逻辑推理中的关键局限性，为未

2025-05-30 07:00:00 1405

原创【AI论文】论文转海报：迈向从科学论文到多模态海报的自动化生成

本文提出首个学术海报生成基准Paper2Poster，包含会议论文-海报配对数据集及多维度评估标准（视觉质量、文本连贯性、VLM评分和PaperQuiz测试）。针对该任务开发的PosterAgent框架采用多智能体管道设计：解析器提取论文结构化内容，规划器构建二叉树布局，画家-评论者循环通过VLM反馈优化面板渲染。实验表明，开源的PosterAgent-Qwen变体在多数指标上优于GPT-4o方案（成本降低87%），能高效生成可编辑.pptx海报（0.005美元/篇），但存在顺序执行效率瓶颈。研究为自动海报

2025-05-29 18:46:07 1064

原创【AI论文】ScienceBoard：评估现实科学工作流程中的多模态自主代理

本研究引入ScienceBoard平台，评估多模态自主代理在科学工作流程中的表现。ScienceBoard包含逼真的多领域环境（集成专业软件）和169个经验证的跨学科任务基准。结果显示，最先进模型（GPT-4o、Claude3.7等）整体成功率仅15%，在复杂视觉任务和领域专业知识要求高的任务表现欠佳。多模态输入（文本+视觉）显著提升性能，但代理仍存在规划与执行脱节、视觉理解不足等问题。研究提出了改进方向，包括增强视觉推理、融合领域知识等，为构建更强大的科学发现智能体奠定基础。相关资源已开源。

2025-05-29 16:11:17 1222

原创【AI论文】具身智能体与个性化：探索记忆利用以实现个性化辅助

《个性化具身智能体的记忆利用能力评估框架研究》摘要：本研究针对大型语言模型驱动的具身智能体在个性化辅助任务中的局限性，提出了MEMENTO评估框架。该框架采用两阶段记忆评估方法，重点考察智能体对对象语义和用户模式的理解能力。实验结果表明，现有模型在需要多记忆联合使用时性能下降显著（如GPT-4o下降30.5%），尤其在用户模式推理任务中表现欠佳。研究揭示了当前智能体在记忆检索、个性化知识应用等方面存在的关键问题，为未来开发更有效的个性化辅助系统提供了实证基础。项目代码和论文已开源。

2025-05-28 18:00:00 1031

原创【AI论文】BizFinBench：一个由业务驱动的、真实世界的金融基准，用于评估LLM

《BizFinBench：面向金融领域的LLM评估基准》摘要本研究针对大型语言模型在金融等精度关键领域的可靠性评估挑战，提出了首个业务驱动的中文金融基准BizFinBench。该基准包含6781个标注样本，覆盖数值计算、推理、信息提取等5大维度9个细分类别。研究创新性提出IteraJudge评估方法，通过迭代校准降低评估偏差，并对25个主流模型进行测试。实验发现：（1）模型表现存在显著差异，Claude-3.5和DeepSeek-R1在数值计算领先；（2）专有模型在推理任务优势明显；（3）信息提取任务性能

2025-05-28 12:00:00 1018

原创【AI论文】将人工智能效率从以模型为中心的压缩转变为以数据为中心的压缩

摘要：随着大型语言模型（LLMs）和多模态模型（MLLMs）的发展逼近硬件极限，计算瓶颈从模型参数量转向长序列自注意力的二次复杂度。本文主张将AI效率研究重点从模型压缩转向数据压缩，提出令牌压缩作为新范式，通过减少输入/输出标记数量提升效率。通过建立统一框架，系统分析了令牌压缩的跨模态优势：双阶段加速、硬件友好性及注意力机制的二次收益优化。实验表明，现有压缩方法（如H2O、FastV）在高压缩比下性能退化，而随机丢弃等简单策略反而更有效，揭示了当前技术在保留语义与位置均匀性上的不足。未来需协同数据与模型压缩

2025-05-28 07:00:00 675

原创【AI论文】使用检索和代码工具将LLM Agent提取为小型模型

本研究提出代理蒸馏框架，将大型语言模型(LLMs)的推理能力及任务解决行为转移到小型语言模型(sLMs)中。通过创新性地引入第一想法前缀提示方法提升教师轨迹质量，并采用"自洽动作生成增强测试鲁棒性。实验在8个事实和数学推理任务中验证，0.5B-3B参数的sLMs性能可媲美1.5B-7B的传统蒸馏模型，最高提升达15.7%。该方法突破了小型模型在罕见知识和精确计算上的局限性，通过工具使用实现了高效推理，为构建实用小型代理提供了新思路。

2025-05-27 18:00:00 997

原创【AI论文】QwenLong-L1：利用强化学习实现长上下文大型推理模型

本研究提出QwenLong-L1框架，解决大型推理模型(LRM)在长上下文推理任务中的两大挑战：训练效率低下和优化不稳定。该框架采用渐进式上下文缩放策略，包含热身监督微调(SFT)、分阶段RL训练和难度感知回顾性采样三个核心组件。实验在7个长文档问答基准上验证，QwenLong-L1-32B表现优于多个旗舰模型，性能接近Claude-3.7-Sonnet-Thinking。研究通过课程学习策略稳定训练过程，利用GRPO和DAPO算法提升效率，为实用化长上下文LRM发展提供了有效方案。

2025-05-27 12:00:00 1829

原创【AI论文】TabSTAR：一个具有语义目标感知表示的基础表格模型

摘要：TabSTAR是一种创新的表格基础模型，在包含文本特征的表格学习中展现出卓越性能。研究表明，该模型通过解冻预训练文本编码器和引入目标感知标记，大幅提升了分类任务的准确性，在标准测试中AUROC得分达0.809（中型数据集）和0.874（大型数据集），优于传统GBDT方法。模型性能随预训练数据量增加呈现明显缩放规律，验证了其迁移学习能力。虽然回归任务表现仍有提升空间，但TabSTAR为表格数据处理开辟了新途径，特别是在医疗和金融等文本丰富领域具有重要应用价值。

2025-05-27 07:00:00 892

原创【AI论文】LLaDA-V：具备视觉指令微调能力的大型语言扩散模型

摘要：本文提出LLaDA-V，一种基于扩散模型的多模态大语言模型，通过视觉指令调整与掩蔽扩散模型结合，突破了现有自回归范式的局限。模型采用SigLIP视觉编码器和MLP连接器实现跨模态对齐，通过三阶段训练策略优化性能。实验表明，LLaDA-V在多模态任务中展现出优于自回归模型的扩展性和竞争力，尤其在多学科知识、数学推理等任务中达到SOTA水平。尽管在纯文本任务和图像处理方面存在局限，但该研究为扩散模型在多模态领域的应用提供了新思路。项目代码已开源。（149字）

2025-05-26 18:00:00 1043

原创【AI论文】GoT-R1：利用强化学习释放多模态大型语言模型（MLLM）在视觉生成中的推理能力

视觉生成模型在处理复杂文本提示（涉及多对象空间关系及属性）时存在困难。本文提出GoT-R1框架，通过强化学习增强语义空间推理能力，使模型自主优化推理策略。该框架采用双阶段多维奖励机制，利用MLLM评估语义对齐、空间精度和视觉质量。实验表明，GoT-R1在T2I-CompBench基准测试中显著提升组合任务性能，尤其在空间关系与属性绑定方面表现优异。研究为复杂视觉生成任务提供了有效解决方案，未来可优化奖励模型并降低计算成本。代码与模型已开源。

2025-05-26 12:00:00 950

原创【AI论文】通过μP有效地扩展扩散变压器

本研究探索了将Maximal Update Parametrization（muP）方法应用于扩散变换器的可行性。通过理论证明，确认主流扩散变换器（DiT、U-ViT等）的muP形式与vanilla Transformer一致，可直接应用现有方法。实验验证表明：1）DiT-muP具有优异的超参数可转移性，DiT-XL-2-muP收敛速度提升2.9倍；2）PixArt-alpha从0.04B扩展到0.61B，调优成本仅需5.5%训练资源；3）MMDiT扩展到18B参数，调优成本降至专家人工的3%。研究证实mu

2025-05-26 07:00:00 628

原创【AI论文】QuickVideo：通过系统算法协同设计实现实时长视频理解

《QuickVideo：长视频理解的高效协同设计》摘要：针对VideoLLMs处理长视频时面临的计算瓶颈，本研究提出QuickVideo框架，通过系统算法协同设计显著提升了处理效率。该方案包含三大创新：1）QuickDecoder实现2-3倍并行解码加速；2）QuickPrefill采用KV缓存修剪技术减少内存占用；3）CPU-GPU重叠执行方案。实验表明，在30分钟视频处理中，端到端延迟从69.7秒降至20秒，KV缓存修剪后仍保持95%以上准确率。虽然当前主要支持H.264格式，但该框架为实时视频理解应

2025-05-25 18:00:00 989

原创【AI论文】KRIS-基准测试：评估下一代智能图像编辑模型的基准

摘要：本研究提出KRIS-Bench基准，用于评估多模态生成模型在基于知识的图像编辑任务中的推理能力。该基准依据教育理论将编辑任务分为事实、概念和程序三类知识，包含22个任务和1267个标注实例。通过4个评估维度（视觉一致性、质量、指令遵循和知识合理性）对10个主流模型进行测试，结果显示闭源模型表现更优，但所有模型在程序性知识任务上均表现欠佳。研究揭示了当前模型在知识推理方面的局限，为智能图像编辑系统的发展提供了新方向。（149字）

2025-05-25 12:00:00 1045

原创【AI论文】Pixel Reasoner：利用好奇心驱动的强化学习激励像素空间推理

摘要：本研究提出"像素空间推理"新范式，突破传统文本推理在视觉任务中的局限。通过为视觉语言模型(VLM)配备放大、选帧等视觉操作，使其能直接交互式分析图像/视频数据。研究采用两阶段训练：先指令调整使模型掌握视觉操作，再通过好奇心驱动的强化学习平衡视觉与文本推理。实验表明，7B参数模型在V*(84%)、TallyQA(74%)等基准上达到开源模型最佳性能，验证了像素空间推理的有效性。研究为多模态推理开辟了新方向，但现有视觉操作种类和数据集多样性仍有提升空间。

2025-05-25 07:00:00 1088

原创【AI论文】工具之星（Tool-Star）：通过强化学习赋能具备大型语言模型（LLM）思维的多工具推理器

本文提出Tool-Star，一个基于强化学习的框架，旨在提升大型语言模型（LLMs）的多工具协同推理能力。通过设计通用数据合成管道（结合工具集成提示与采样技术）生成高质量工具使用轨迹，并采用两阶段训练策略：冷启动微调引导模型探索推理模式，多工具自批评RL算法通过分层奖励促进工具协作。实验表明，Tool-Star在10余个推理基准上显著优于现有方法，尤其在计算型与知识密集型任务中表现优异。局限包括工具多样性有限（当前集成6种工具）和模型规模约束（最高3B参数）。未来将扩展工具类型、评估指标及更大规模模型

2025-05-24 18:00:00 1086

原创【AI论文】扩展推理，失去控制：评估大型推理模型中的指令跟踪

本研究提出MathIF基准，首次系统评估大型推理模型(LRMs)在数学领域的指令跟随能力。通过构建包含420个样本的数据集并设计15种Python可验证的约束条件，研究发现当前LRMs普遍存在指令跟随缺陷，即使表现最佳的Qwen3-14B模型硬准确率仅50.71%。研究揭示了推理能力与指令依从性之间的显著权衡关系：推理能力提升往往伴随指令跟随性能下降，特别是采用蒸馏长链思维或强化学习训练的模型表现更差。实验还发现，链式思维长度增加会显著降低指令跟随效果。这些发现表明现有训练范式在保持模型可控性方面存在

2025-05-24 12:00:00 945

原创【AI论文】NovelSeek：当代理人成为科学家时——从假设到验证建立闭环系统

本研究提出NovelSeek框架，通过多代理系统实现自主科学研究闭环。该框架包含自演化假设生成、人机交互反馈、方法论构建及实验验证四个核心模块，在12项跨领域任务测试中展现显著优势：1）反应产率预测性能12小时内提升7.8%；2）增强子活性预测准确率4小时提高0.27；3）2D语义分割精度30小时达81%。研究证实NovelSeek具备：1）跨领域可扩展性；2）人机协同交互能力；3）高效实验闭环验证机制。未来将优化数据处理、复杂任务适应性及评估标准

2025-05-24 07:00:00 1091

原创【AI论文】UniVG-R1：基于强化学习的推理引导通用视觉定位

本研究提出了一种名为UniVG-R1的推理引导多模态大型语言模型，旨在解决通用视觉定位任务中的复杂指令和多图像场景挑战。通过构建高质量的思维链基础数据集，并采用监督式微调和基于规则的强化学习，UniVG-R1显著提升了模型的推理能力。此外，研究还引入了难度感知的权重调整策略，以解决训练中的难度偏差问题。实验结果显示，UniVG-R1在MIG-Bench基准测试上达到了最先进的性能，比之前的方法提高了9.1%，并在零样本设置下平均提高了23.4%的性能。尽管存在数据集规模和模型复杂度等局限性，UniVG-R1

2025-05-23 18:00:00 1609

原创【AI论文】量化感知训练的缩放定律

本文探讨了大型语言模型（LLMs）在部署时面临的计算和内存资源挑战，提出了量化感知训练（QAT）作为解决方案，特别是在4位精度（W4A4）下的应用。研究通过268次实验，建立了统一的QAT缩放定律，将量化误差与模型大小、训练数据量和量化组大小关联起来。研究发现，量化误差随模型增大而减小，但随训练数据增加和量化粒度变粗而增加。通过分解量化误差为权重和激活分量，识别了W4A4量化误差的主要来源，并提出了混合精度量化策略来降低误差。研究还指出了未来研究方向，包括探索不同模型架构和量化位宽的QAT缩放定律，以及优化

2025-05-23 12:00:00 1010

原创【AI论文】Web-Shepherd：推进PRM以加强Web代理

本文介绍了Web-Shepherd，这是一个专门用于评估网络导航轨迹的过程奖励模型（PRM），旨在提高网络代理的性能和可靠性。研究首先构建了包含40K个步骤级别偏好对和标注清单的WebPRMCollection数据集，并引入了首个用于评估PRM的元评估基准WebRewardBench。实验结果显示，Web-Shepherd在WebRewardBench上的准确率显著高于GPT-4o，并在WebArena-lite上实现了性能提升和成本降低。研究还进行了案例分析，揭示了代理失败的常见原因。尽管存在一些局限性，

2025-05-23 07:00:00 1087

原创【AI论文】VisualQuality-R1：通过强化学习进行推理诱导的图像质量评估

本文介绍了VisualQuality-R1，一种基于强化学习的无参考图像质量评估（NR-IQA）模型，旨在通过推理诱导机制提升模型的泛化能力和性能。该模型采用组相对策略优化和瑟斯顿模型，通过比较图像对之间的质量来生成质量分数，并使用连续保真度度量作为奖励函数。实验结果表明，VisualQuality-R1在多个数据集上均优于传统的基于深度学习的NR-IQA模型和基于视觉语言模型的监督微调方法。此外，该模型能够生成与人类感知一致且上下文丰富的质量描述，并支持多数据集训练，无需感知尺度重新调整。尽管存在计算成本

2025-05-22 18:00:00 568

原创【AI论文】SageAttention3：面向推理的微缩版FP4注意力机制以及8位训练的探索

本研究聚焦于提升注意力机制的计算效率，通过两项关键创新实现目标。首先，利用Blackwell GPU中的FP4 Tensor Cores，开发了SageAttention3，在RTX 5090上实现了1038 TOPS的峰值性能，比FlashAttention快5倍，且在各种模型推理中保持高效。其次，开创了低比特注意力训练任务，设计了8位注意力机制SageBwd，在微调任务中实现无损性能，尽管在预训练任务中收敛速度较慢。研究结果表明，FP4注意力机制显著加速了推理过程，而8位注意力机制在训练阶段也展现出潜力

2025-05-22 12:00:00 1460

原创【AI论文】统一多模态预训练中的新兴属性

BAGEL是一个开源的多模态基础模型，旨在统一多模态理解和生成任务。该模型基于大规模交织的文本、图像、视频和网络数据进行预训练，展现出在复杂多模态推理任务中的新兴能力。BAGEL在多个标准基准测试中表现优异，显著优于现有的开源统一模型，并在自由形式的图像处理、未来帧预测、3D操作和世界导航等高级任务中展示了先进的能力。为了推动多模态研究的发展，研究团队分享了关键发现、预训练细节、数据创建协议，并发布了代码和检查点。尽管BAGEL在多模态理解和生成方面取得了显著进展，但仍面临数据依赖、计算资源需求、复杂任务表

2025-05-22 07:00:00 966

原创【AI论文】AdaCoT：基于强化学习的帕累托最优自适应思维链触发机制

大型语言模型（LLMs）在处理复杂推理任务时面临挑战，尽管思维链（CoT）提示方法显著提升了推理能力，但其不加选择地为所有查询生成冗长推理步骤，导致计算成本高昂且效率低下。为解决这一问题，研究团队提出了AdaCoT（自适应思维链）框架，使LLM能够自适应地决定何时调用CoT。AdaCoT将自适应推理视为帕累托优化问题，通过强化学习（RL）方法，特别是近端策略优化（PPO），动态控制CoT触发决策边界，确保模型根据查询复杂性确定CoT的必要性。关键技术贡献包括选择性损失掩蔽（SLM），以抵消多阶段RL训练中的

2025-05-21 18:00:00 807

### 【图像生成领域】GPT-ImgEval：评估GPT-4o图像生成能力的全面基准测试系统设计与分析

内容概要：本文介绍了GPT-ImgEval，这是首个全面评估GPT-4o图像生成能力的基准测试工具。GPT-4o是OpenAI最新发布的多模态大模型，在图像生成、编辑和视觉语言推理方面表现出色。GPT-ImgEval从三个关键维度评估GPT-4o：生成质量（通过GenEval数据集）、编辑熟练度（通过Reason-Edit数据集）以及基于世界知识的语义合成（通过WISE数据集）。研究发现，GPT-4o在这些任务上显著超越了现有方法，展示了强大的生成控制能力和输出质量。此外，文章还探讨了GPT-4o可能采用的底层架构，提出了基于分类模型的方法来区分自回归和扩散解码器，并推测其内部使用了扩散头进行图像解码。研究还揭示了GPT-4o在生成过程中的一些局限性，如尺寸不一致、高分辨率和过度细化的限制、复杂场景处理困难等。最后，文章对比了GPT-4o与Gemini 2.0 Flash在多轮图像编辑方面的表现，并讨论了GPT-4o生成图像的安全性和可检测性。适合人群：对图像生成技术感兴趣的科研人员、开发者和工程师。使用场景及目标：①评估和比较不同图像生成模型的性能；②深入理解GPT-4o的内部架构及其优缺点；③为未来的研究提供可靠的基准测试工具和方法。其他说明：GPT-ImgEval提供了详细的定量和定性评估结果，帮助研究人员更好地理解和改进图像生成技术。此外，作者还开源了用于评估GPT-4o的自动化脚本和数据集，以便社区进一步研究和应用。

2025-04-04

### 【计算机视觉】RISEBench：评估推理驱动的视觉编辑能力的基准测试系统设计与分析

内容概要：本文介绍RISEBench——首个用于评估多模态模型（LMMs）推理引导视觉编辑（RISE）能力的基准测试。RISEBench专注于四种关键推理类型：时间推理、因果推理、空间推理和逻辑推理。它提供了一套高质量的测试用例和评价框架，涵盖指令推理、外观一致性以及视觉合理性。研究结果显示，尽管GPT-4o-Native在多个维度上表现最佳，但即使是当前最先进的模型在逻辑推理任务中仍存在明显不足。这突显了逻辑推理作为未来研究的重要方向。此外，RISEBench致力于持续扩展和改进，以支持更全面、可靠且可扩展的下一代多模态系统评估。适合人群：对多模态模型、计算机视觉及图像生成领域有兴趣的研究人员和技术开发者。使用场景及目标：①评估不同模型在推理引导视觉编辑任务中的表现；②为研究人员提供一个系统化评估和改进模型推理能力的基础工具；③推动未来多模态模型的发展，特别是在逻辑推理方面的能力提升。其他说明：RISEBench不仅提供了详细的评分指南，还设计了一个基于LMM的自动评估管道，以确保评价结果的一致性和准确性。此外，作者团队承诺将继续完善该基准测试，使其能够适应更多样化的应用场景和技术进步。

2025-04-04

论文：人工智能基于脑启发智能的多模块智能体设计与挑战：从认知到协作的全基础智能体（Foundation Agents）领域的进展与挑战：从类脑智能到进化型、协作型及安全型系统面综述

内容概要：本文综述了智能体领域从脑启发智能到进化、协作和安全系统的最新进展与挑战。文章首先介绍了大型语言模型（LLMs）的发展及其对智能体设计、评估和持续改进的影响，强调了模块化、脑启发架构的重要性。随后，文章详细探讨了智能体在个人助手系统、游戏环境、机器人流程自动化（RPA）和多媒体内容生成等领域的应用，特别是在视觉感知方面的进步。此外，文中还讨论了智能体面临的挑战，如模型误判、数据集多样性不足、硬件性能差异以及供应链攻击等问题。最后，文章提出了多种应对策略，包括数据增强、不确定性估计、生物启发学习框架等。适合人群：对人工智能、特别是智能体技术感兴趣的科研人员、工程师和研究生。使用场景及目标：①了解智能体在不同应用场景中的最新进展；②掌握智能体设计、评估和改进的关键技术和挑战；③探索智能体在未来研究和实际应用中的潜力和发展方向。其他说明：本文不仅涵盖了智能体的技术细节，还深入探讨了其面临的伦理和安全问题，为未来的研究提供了全面的视角。阅读时应重点关注智能体的设计原则、应用场景和技术挑战，以便更好地理解和应对这一领域的复杂性。

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人