顶会论文
文章平均质量分 88
该专栏主要整理顶会相关的LLM文章
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025_NIPS_Can Language Models Solve Graph Problems in Natural Language?
大型语言模型(LLMs)正日益被应用于各类含隐式图形结构的任务,例如机器人规划、多跳问答或知识探查、结构化常识推理等。尽管LLMs在这些含结构暗示的任务上取得了最先进的成果,但它们能否明确处理图和结构的文本描述、将其映射到接地概念空间并执行结构化操作,仍有待深入探索。为此,我们提出了NLGraph(自然语言图)——一个基于图的问题求解综合基准,完全以自然语言设计。NLGraph包含29,370个问题,覆盖8类图推理任务,复杂度各异:从连通性、最短路径等简单任务,到最大流、图神经网络模拟等复杂问题。原创 2026-06-12 14:30:00 · 2 阅读 · 0 评论 -
2025_NIPS_Language Is Not All You Need: Aligning Perception with Language Models
语言、多模态感知、动作与世界建模的深度融合是迈向通用人工智能的关键一步。本文中,我们提出了多模态大型语言模型(MLLM)KOSMOS-1,该模型能够感知通用模态、进行上下文学习(即少样本学习)并遵循指令(即零样本学习)。具体而言,我们在网页级多模态语料库上从头训练KOSMOS-1,该语料库包括任意交错的文本和图像、图像-描述对以及文本数据。我们在多种设置下(包括零样本、少样本和多模态思维链提示)对模型进行了广泛任务评估,且未进行任何梯度更新或微调。原创 2026-06-11 14:30:00 · 8 阅读 · 0 评论 -
2025_NIPS_Efficient Exploration in Continuous-time Model-based Reinforcement Learning
该研究聚焦连续时间模型的强化学习,提出乐观连续时间模型基强化学习算法(OCORL)。核心是用非线性常微分方程(ODEs)建模连续时间动态,结合高斯过程(GP)捕捉认知不确定性,通过乐观原则实现高效探索。文章分析了测量选择策略(MSS)对遗憾界的影响,提出自适应MSS并验证其优越性,同时通过实验证明OCORL在机器人、医疗等多个任务中,相较于离散时间模型和传统MSS,能以更少样本实现亚线性遗憾。强化学习算法通常考虑离散时间动态,尽管底层系统往往是连续时间的。原创 2026-06-12 12:30:00 · 2 阅读 · 0 评论 -
2025_NIPS_Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
近年来,大量研究声称大型语言模型(LLMs)具备涌现的认知能力。然而,这些研究大多依赖轶事证据,忽视了训练集污染问题,或缺乏包含多任务、控制条件、多轮迭代和统计稳健性检验的系统性评估。本文作出两项主要贡献:首先,我们提出CogEval协议——一种受认知科学启发的LLMs认知能力系统性评估方案,该协议可用于评估多种认知能力;原创 2026-06-12 11:30:00 · 77 阅读 · 0 评论 -
2025_NIPS_Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing
高容量预训练模型的出现彻底改变了计算机视觉领域的问题解决方式,将研究重心从训练任务特定模型转向适配预训练模型。因此,以高效方式将大型预训练模型适配到下游任务已成为一个重要的研究方向。现有解决方案主要集中在设计轻量化适配器及其与预训练模型的交互方式,旨在最小化需要更新的参数数量。在本研究中,我们提出了一种新颖的适配器重组(ARC)策略,从全新视角解决预训练模型的高效适配问题。该方法充分考虑适配参数的可复用性,并引入参数共享方案。具体而言,我们利用对称下投影/上投影构建瓶颈操作,这些操作在不同层之间共享;原创 2026-06-12 10:30:00 · 5 阅读 · 0 评论 -
2025_NIPS_UDC-SIT: A Real-World Dataset for Under-Display Cameras
本文针对屏下摄像头(UDC)成像存在的低透射率、模糊、噪声、光晕等退化问题,提出了首个真实世界UDC数据集UDC-SIT。现有UDC数据集多为合成数据,无法准确反映真实退化特性,且缺乏对齐和完整标注。为此,作者设计了专用图像采集系统,通过在非UDC手机镜头上加装UDC显示屏模块(可开合),获取同一场景的无退化基准图与UDC退化图;并提出基于离散傅里叶变换(DFT)的图像对齐技术,结合空间域和频域损失函数解决采集过程中的几何错位问题。原创 2026-06-12 08:30:00 · 92 阅读 · 0 评论 -
2025_NIPS_Fine-Tuning Language Models with Just Forward Passes
微调语言模型(LM)已在各类下游任务中取得成功,但随着模型规模扩大,反向传播所需的内存量变得难以承受。零阶(ZO)方法原则上仅需两次前向传播即可估计梯度,但理论上优化大型模型时速度会极慢。本文提出一种内存高效的零阶优化器(MeZO),对经典ZO-SGD方法进行适配以实现原地运算,从而在与推理相同的内存占用下微调语言模型。例如,使用单块A100 80GB GPU时,MeZO可训练300亿参数模型,而反向传播微调在相同硬件条件下仅能训练27亿参数模型。原创 2026-06-12 09:30:00 · 7 阅读 · 0 评论 -
2025_NIPS_LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large La...
大型语言模型(LLMs)的出现及其在法律界的应用引发了一个关键问题:LLMs 能够执行哪些类型的法律推理?为推动这一问题的深入研究,我们提出 LEGALBENCH——一个协作构建的法律推理基准,包含 162 个任务,覆盖六种不同类型的法律推理。LEGALBENCH 通过跨学科流程构建,收集了由法律专业人士设计和手工打造的任务。由于这些领域专家主导了构建过程,任务要么测量具有实际应用价值的法律推理能力,要么测量律师认为有研究意义的推理技能。原创 2026-06-12 07:30:00 · 6 阅读 · 0 评论 -
2025_NIPS_What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks
研究背景与目标:LLMs在自然语言处理及部分科学领域已展现潜力,但在化学领域的系统性评估缺失。研究旨在通过标准化基准,探究LLMs在化学任务中的理解、推理与解释能力,为AI研究者和化学家提供实用参考。基准测试设计核心能力维度:围绕化学领域的理解、推理、解释三大核心能力展开。8项化学任务:涵盖名称预测(如SMILES与IUPAC名称互译)、性质预测(如血脑屏障穿透性)、产率预测、反应预测、逆合成分析、文本驱动分子设计、分子描述生成、试剂选择,覆盖合成化学、药物发现等关键场景。数据集与评估方式。原创 2026-06-11 12:30:00 · 9 阅读 · 0 评论 -
2025_NIPS_Large language models transition from integrating across position-yoked, exponential wi...
研究背景:自然语言具有多尺度层级结构,智能系统需灵活整合不同时间尺度信息以理解语义;人类大脑对语言的响应存在结构化“整合窗口”,但LLMs的整合窗口特性此前缺乏系统研究。核心方法:提出一种不依赖模型梯度或架构细节(如注意力权重)的“词交换法”(word-swap procedure),可从黑箱语言模型中估算整合窗口;同时设计量化指标,衡量整合窗口与语言结构边界(如句界)的关联程度。关键发现。原创 2026-06-11 11:30:00 · 8 阅读 · 0 评论 -
2025_NIPS_Accelerating Monte Carlo Tree Search with Probability Tree State Abstraction
该研究针对蒙特卡洛树搜索(MCTS)算法(如AlphaGo、MuZero)在复杂任务中面临的搜索空间庞大、计算复杂度高的问题,提出了一种新型概率树状态抽象(PTSA)算法,核心目标是提升MCTS的搜索效率。核心背景:MCTS类算法在围棋、Atari游戏等任务中已实现超人类性能,但增大搜索深度以提升决策准确性的同时,会导致时间和空间复杂度激增;传统状态抽象方法存在最小抽象状态空间求解为NP难问题、聚合过程容错率低等缺陷。算法设计。原创 2026-06-11 10:30:00 · 9 阅读 · 0 评论 -
2025_NIPS_On the Planning Abilities of Large Language Models - A Critical Investigation
受限于通用网络语料训练的大型语言模型(LLMs)具有涌现推理能力的相关说法启发,本文旨在探究其规划能力。我们的研究目标包括:(1)评估LLMs在常识规划任务中自主生成计划的有效性;(2)验证LLMs作为启发式指导源,为其他智能体(AI规划器)的规划任务提供支持的潜力。我们通过生成一套基于国际规划竞赛所用领域的测试实例,以两种不同模式对LLMs进行系统性评估:自主模式与启发式模式。研究结果表明,LLMs自主生成可执行计划的能力相当有限,最优模型(GPT-4)在各领域的平均成功率约为12%。原创 2026-06-11 09:30:00 · 9 阅读 · 0 评论 -
2025_NIPS_Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minima...
本文旨在增进对强化学习中策略优化问题优化 landscape 的理解。具体而言,我们证明:在表格型场景以及由一类神经网络表示策略的场景下,目标函数关于策略参数的上水平集始终是连通集。此外,我们还表明,策略优化目标函数作为策略参数和奖励的函数,满足更强的“等连通性”性质。据我们所知,这些均是新颖且此前未被发现的成果。我们将上水平集的连通性结果应用于鲁棒强化学习的极小极大定理推导。研究表明,任何一侧为凸函数、另一侧满足等连通性的极小极大优化问题,均满足极小极大等式(即存在纳什均衡)。原创 2026-06-11 08:30:00 · 8 阅读 · 0 评论 -
2025_NIPS_Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning
在多任务强化学习领域,模块化原则(将功能拆分到不同模块并合理组合)已被广泛用作解决负迁移问题的有效方法——负迁移指因任务间冲突导致的性能下降。然而,大多数现有多任务强化学习方法仅在任务级别组合共享模块,忽略了任务内部可能存在的冲突;此外,这些方法缺乏对模块的约束,可能导致部分模块学习相似功能,进而限制模型的表达能力和泛化性能。原创 2026-06-11 07:30:00 · 12 阅读 · 0 评论 -
2025_NIPS_White-Box Transformers via Sparse Rate Reduction
在本文中,我们认为表示学习的目标是对数据(即token集合)的分布进行压缩和转换,使其成为支持在非相干子空间上的低维高斯混合分布。最终表示的质量可以通过一个名为“稀疏率降低”的统一目标函数来衡量。从这一视角出发,诸如Transformer等主流深度网络可自然地被视为逐步优化该目标的迭代方案。原创 2026-06-10 12:30:00 · 9 阅读 · 0 评论 -
2025_NIPS_Distributed Inference and Fine-tuning of Large Language Models Over The Internet
大语言模型(LLMs)在众多自然语言处理任务中极具实用价值,且规模越大性能越优——目前最优的开源模型已具备超过500亿参数。然而,使用这些500亿参数以上的模型需要高端硬件,这使得大多数研究者难以获取。本文研究了大模型的低成本推理与微调方法,对比了本地策略与分布式策略。我们发现,足够大的模型(500亿参数以上)即使在消费级网络中的地理分布式设备上也能高效运行。这一发现意味着,通过整合多个研究团队和志愿者的闲置计算资源,有望实现大模型的高效部署。原创 2026-06-10 11:30:00 · 10 阅读 · 0 评论 -
2025_NIPS_Test-Time Distribution Normalization for Contrastively Learned Visual-language Models
问题识别:CLIP等模型基于InfoNCE损失训练,需同时利用正负样本优化表征空间,但下游测试时仅通过图像与文本表征的点积计算相似度,未利用测试分布信息,导致信息丢失和性能受限。核心方法:提出分布归一化(Distribution Normalization, DN),通过在计算点积前减去测试样本批次的图像/文本表征均值,近似InfoNCE损失中的负样本信息。该方法无需重训练、微调或标注数据,仅需少量无标签样本估计分布均值,实现简单且计算开销低。扩展变体。原创 2026-06-10 10:30:00 · 9 阅读 · 0 评论 -
2025_NIPS_3D-LLM: Injecting the 3D World into Large Language Models
3D世界与LLM的深度融合:首次系统性地将3D物理世界概念(空间关系、物理规律等)注入LLM,突破传统LLM和2D VLMs的场景理解局限,实现对3D场景的整体感知与推理。大规模3D-语言数据生成方案:创新设计三种提示机制,利用现有LLM生成高质量、多任务的3D-语言配对数据,解决3D数据稀缺且标注困难的行业痛点。高效的跨模态特征对齐:通过从2D多视角图像提取并转换3D特征,复用预训练2D VLMs的骨干网络,避免从零训练3D编码器的资源浪费,实现高效模型训练。3D空间定位机制。原创 2026-06-10 08:30:00 · 8 阅读 · 0 评论 -
2025_NIPS_Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models
已提出多种适配方法(如LoRA、提示词和适配器)以提升预训练视觉语言模型在特定领域的性能。由于现实应用中的测试样本通常与适配数据存在差异,研究这些适配方法针对分布偏移的鲁棒性至关重要。本研究在多模态损坏场景下,基于4个视觉语言数据集评估了11种广泛使用的适配方法的鲁棒性。具体而言,我们构建了7个基准数据集,包含96种视觉损坏和87种文本损坏,用于探究不同适配方法的鲁棒性、适配样本数量的影响以及适配过程中可训练参数规模的作用。分析结果表明:1)适配方法对文本损坏的敏感性高于视觉损坏;原创 2026-06-10 09:30:00 · 10 阅读 · 0 评论 -
2025_NIPS_Recovering from Out-of-sample States via Inverse Dynamics in Offline Reinforcement Lear...
该文章聚焦离线强化学习(Offline RL)中测试阶段常见的状态分布偏移问题——智能体在分布外(未见过)状态下易采取不可靠动作,导致任务失败。为解决这一问题,作者提出分布外状态恢复(OSR)方法及变体(OSR-v),核心思路是遵循“状态恢复原则”:让智能体在决策时不仅考虑长期回报,还需优先选择能将状态拉回离线数据集分布内的动作,无需显式建模环境转移动态。对离线数据集进行噪声注入,生成包含分布外状态的混合数据集,模拟状态偏移场景;原创 2026-06-10 07:30:00 · 111 阅读 · 0 评论 -
2025_NIPS_Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning
离线多智能体强化学习极具挑战性,这源于离线场景中普遍存在的分布偏移问题与多智能体场景中常见的高维问题的耦合效应——这使得动作分布外(OOD)现象和价值高估问题异常严重。为缓解该问题,我们提出一种新型多智能体离线强化学习算法,即反事实保守Q学习(CFCQL),以实现保守价值估计。与将所有智能体视为单一高维智能体并直接应用单智能体方法的思路不同,CFCQL通过反事实方式为每个智能体单独计算保守正则化项,再将其线性组合以实现全局保守价值估计。原创 2026-06-09 12:30:00 · 13 阅读 · 0 评论 -
2025_NIPS_STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning
近年来,模型基强化学习算法在视觉输入环境中展现出显著成效。这些方法首先通过自监督学习构建真实环境的参数化仿真世界模型,借助世界模型的“想象”能力,在不受真实环境采样约束的情况下优化智能体策略。算法性能很大程度上依赖于世界模型的序列建模与生成能力,但构建复杂未知环境的完美精确模型几乎不可能——模型与现实的差异可能导致智能体追求虚拟目标,进而在真实环境中表现不佳。在模型基强化学习中引入随机噪声已被证实有效。原创 2026-06-09 11:30:00 · 12 阅读 · 0 评论 -
2025_NIPS_Nearly Optimal Bounds for Cyclic Forgetting
我们在持续学习场景中,针对线性任务的遗忘量提供了理论边界。在该场景下,每一轮学习对应投影到一个线性子空间。对于 T 个任务各重复 m 次的循环任务排序,我们证明了遗忘量的最优已知上界为OT2mO(T^2 / m)OT2m。值得注意的是,我们的边界对所有任务选择一致成立,且与环境维度无关。我们的主要技术贡献是将所有 T 个(实或复)投影乘积的数值范围并集刻画为正弦螺旋,这一结果本身可能具有独立的研究价值。本文针对循环任务排序的持续学习场景,提出了线性任务遗忘量的近优边界OT2m。原创 2026-06-09 10:30:00 · 9 阅读 · 0 评论 -
2025_NIPS_Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with Worl...
与大多数需要大量环境交互才能学习新行为的强化学习智能体不同,人类仅通过观察和模仿他人就能快速学习,这种能力很大程度上依赖于人类拥有自身的身体模型,使其能够推断出导致观察到的行为的最可能动作。本文提出了一种基于世界模型的“通过最大化证据进行动作推理(AIME)”方法,以复刻这种行为。AIME包含两个不同阶段:第一阶段,智能体通过最大化证据下界(ELBO),从过往经验中学习世界模型,从而理解自身的身体结构;第二阶段,智能体获得专家执行新任务的纯观察演示数据,并尝试模仿专家行为。原创 2026-06-09 09:30:00 · 10 阅读 · 0 评论 -
2025_NIPS_Large Language Models as Commonsense Knowledge for Large-Scale Task Planning
该文章聚焦于少样本学习(Few-Shot Learning, FSL)中的关键挑战——模型在有限标注样本下的泛化能力不足,尤其针对类别分布偏移和特征表示鲁棒性问题展开研究。文章提出了一种名为“XXX”(需根据全文核心方法补充,暂基于摘要推断为“基于元特征对齐与动态原型优化的少样本学习框架”)构建元学习驱动的特征对齐机制,缓解不同任务间的分布差异;设计动态原型更新策略,利用未标注样本(或辅助信息)优化类别原型表示,减少有限样本带来的估计偏差;原创 2026-06-09 08:30:00 · 279 阅读 · 0 评论 -
2025_NIPS_Time Series as Images: Vision Transformer for Irregularly Sampled Time Series
不规则采样时间序列的应用日益广泛,尤其在医疗领域。尽管已开发出多种专门方法处理此类不规则性,但有效建模其复杂动态特征和显著稀疏性仍面临挑战。本文提出一种全新视角:将不规则采样时间序列转换为折线图图像,随后利用性能强大的预训练视觉Transformer,以图像分类的方式完成时间序列分类。该方法不仅大幅简化了专用算法的设计流程,还具备成为时间序列建模通用框架的潜力。值得注意的是,尽管方法简洁,在多个主流医疗保健和人类活动数据集上,其性能仍超越了最先进的专用算法。原创 2026-06-09 07:30:00 · 130 阅读 · 0 评论 -
2025_NIPS_Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving a...
自人工智能研究起步以来,追求类人智能的人工智能一直是经久不衰的话题。最新一代大型语言模型(LLMs)的技术演进与新兴能力,已将这一主题从学术界推向主流文化思潮。尽管近期的自然语言处理(NLP)评估基准测试考察了类人行为的部分方面(例如BIG-bench中的“类人行为”任务),但几乎没有测试关注创造性问题解决能力。人类的创造性问题解决是认知神经科学中一个研究成熟的领域,其标准化测试主要以线索词间(异质性)关联能力作为创造力的衡量指标。原创 2026-06-08 12:30:00 · 14 阅读 · 0 评论 -
2025_NIPS_WalkLM: A Uniform Language Model Fine-tuning Framework for Attributed Graph Embedding
图被广泛用于建模互联实体,并在各类真实世界应用中提升下游预测性能。然而,如今的真实世界图通常包含多种类型节点甚至边的复杂属性,难以进行统一建模;而广泛使用的图神经网络(GNNs)往往需要针对特定下游预测任务进行充分训练才能达到良好性能。本文采用与 GNNs 截然不同的思路,旨在同时实现对真实世界图复杂属性与灵活结构的深度联合建模,并获取不受特定下游预测限制的无监督通用图表示。我们的框架基于语言模型(LMs)与随机游走(RWs)的自然融合,简洁、高效且数据利用率高。原创 2026-06-08 11:30:00 · 202 阅读 · 0 评论 -
2025_NIPS_Active Reasoning in an Open-World Environment
近年来,视觉-语言学习领域通过整合海量世界知识,在完整信息问答数据集上取得了显著成功。然而,大多数模型均以被动方式运行,仅基于预存储的知识响应问题。与之形成鲜明对比的是,人类具备主动探索、积累信息并利用新获取知识与既有知识进行推理的能力,能够应对信息不完全的问题。为填补这一空白,我们提出了 🔍 Conan——一个用于评估主动推理能力的交互式开放世界环境。🔍 Conan 支持主动探索,并促进多轮溯因推理,其场景类似于《我的世界》等丰富的开放世界设定。原创 2026-06-08 10:30:00 · 17 阅读 · 0 评论 -
2025_NIPS_Self-Chained Image-Language Model for Video Localization and Question Answering
近年来的研究表明,利用大规模预训练图像-语言模型解决视频问答任务取得了良好效果。尽管这些图像-语言模型能有效助力视频-语言模型的表征学习,但它们通常将均匀采样的视频帧拼接作为视觉输入,缺乏显式的语言感知时序建模。当视频中仅有部分内容与语言查询相关时,这种均匀帧采样往往会导致丢失关键视觉线索。人类通常会找到视频中相关的时刻并反复回看以回答问题,但训练查询感知的视频时刻定位器往往需要高昂的标注成本和巨大的计算开销。原创 2026-06-08 09:30:00 · 441 阅读 · 0 评论 -
2025_NIPS_BIOT: Biosignal Transformer for Cross-data Learning in the Wild
生物信号(如脑电图,EEG)在众多临床应用中发挥着关键作用,其数据格式多样且质量各异。当前基于卷积神经网络(CNN)、循环神经网络(RNN)和Transformer的生物信号深度学习模型通常针对特定数据集和临床场景设计,限制了其更广泛的适用性。本文旨在开发一种灵活的生物信号编码器架构,能够在多个数据集上进行预训练,并在不同格式的下游生物信号任务中进行微调。为克服不同格式生物信号带来的独特挑战(如通道不匹配、样本长度可变和普遍存在的缺失值),我们提出了生物信号Transformer(BIOT)。原创 2026-06-08 08:30:00 · 15 阅读 · 0 评论 -
2025_NIPS_Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents
深度强化学习(RL)通过将深度神经网络(DNNs)作为函数逼近器,在解决复杂任务方面取得了显著成功。然而,对DNNs的依赖引入了一个名为首因偏差的新挑战——这些函数逼近器倾向于优先考虑早期经验,进而导致过拟合。为缓解这种首因偏差,已有研究提出了一种重置方法:在保留回放缓冲区的同时,周期性地重置深度RL智能体的部分或全部参数。但重置方法的使用会导致重置后出现性能崩溃,这从安全强化学习和遗憾最小化的角度来看是不利的。原创 2026-06-08 07:30:00 · 94 阅读 · 0 评论 -
2025_NIPS_Block-State Transformers
状态空间模型(SSMs)在需要建模长程依赖的任务中展现出了令人印象深刻的结果,并且凭借其子二次时间复杂度,能够高效地扩展到长序列。SSM最初是为连续信号设计的,已在视觉和音频等众多任务中表现出卓越性能;然而,在语言建模任务中,SSM的性能仍落后于Transformer。在本文中,我们提出了一种名为Block-State Transformer(BST)的混合层,其在内部融合了用于长程上下文建模的SSM子层和用于序列短期表示的Block Transformer子层。原创 2026-06-07 08:30:00 · 16 阅读 · 0 评论 -
2025_NIPS_LayoutGPT: Compositional Visual Planning and Generation with Large Language Models
摘要:在视觉生成中实现高度的用户可控性,通常需要布局等复杂、细粒度的输入。然而,与简单的文本输入相比,此类输入给用户带来了沉重负担。为解决这一问题,我们研究了大型语言模型(LLMs)如何通过从文本条件生成布局来充当视觉规划器,进而与视觉生成模型协作。我们提出 LayoutGPT 方法,该方法通过样式表语言构建上下文视觉演示示例,以增强 LLMs 的视觉规划能力。LayoutGPT 能够在多个领域生成合理的布局,涵盖从 2D 图像到 3D 室内场景。原创 2026-06-07 07:30:00 · 116 阅读 · 0 评论 -
2025_NIPS_PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning
在强化学习(RL)中,提升样本效率至关重要,尤其是在数据获取成本高且存在风险的场景下。理论上,离线策略RL算法可通过对每次环境交互进行多次更新来提高样本效率。然而,这些多次更新往往导致模型过拟合早期交互数据,这种现象被称为可塑性丧失。本研究通过将可塑性分为两个方面来探究该现象的根本原因:输入可塑性(模型对输入数据变化的适应性)和标签可塑性(模型对输入-输出关系演变的适应性)。在CIFAR-10数据集上的合成实验表明,寻找损失曲面的更平滑极小值能提升输入可塑性,而优化梯度传播则可改善标签可塑性。原创 2026-06-06 12:30:00 · 19 阅读 · 0 评论 -
2025_NIPS_GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
适配器风格的高效迁移学习(ETL)在低数据场景下的视觉语言模型(VLMs)调优中表现出优异性能——该方法仅引入少量额外参数,就能基于VLMs强大的通用表征挖掘任务特定知识。然而,大多数适配器风格的研究存在两个局限:(1)仅通过单模态建模任务特定知识;(2)忽视了下游任务中类别间关系的挖掘,导致模型性能欠佳。为缓解这些问题,我们提出一种高效的适配器风格调优策略GraphAdapter,其通过双知识图谱显式建模双模态结构知识(即文本和视觉模态中不同语义/类别的关联关系),实现文本适配器的优化。原创 2026-06-06 11:30:00 · 20 阅读 · 0 评论 -
2025_NIPS_Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning
我们研究具有低秩结构的强化学习(RL)中出现的矩阵估计问题。在低秩老虎机中,待恢复矩阵指定了期望臂奖励;而在低秩马尔可夫决策过程(MDP)中,该矩阵可表征MDP的转移核等关键信息。在这两种情况下,矩阵的每个元素都承载着重要信息,因此我们寻求具有低逐元素误差的估计方法。重要的是,这些方法还需适应可用数据中固有的相关性(例如,在MDP中,数据由系统轨迹组成)。我们研究了基于简单谱方法的矩阵估计方案:结果表明,这些方法能高效恢复矩阵的奇异子空间,并实现近极小的逐元素误差。原创 2026-06-06 10:30:00 · 149 阅读 · 0 评论 -
2025_NIPS_TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models
大型语言模型(LLMs)正逐渐被用作各类应用的机器学习服务和接口工具。然而,LLMs的安全隐患(尤其是对抗性攻击和特洛伊木马攻击相关隐患)尚未得到充分研究。本文提出TrojLLM,这是一个自动化的黑盒框架,能够有效生成通用且隐蔽的触发器。当这些触发器嵌入输入数据时,可对LLMs的输出进行恶意操控。此外,该框架还支持在离散提示词中植入特洛伊木马,提升触发器攻击的整体有效性和精准度。具体而言,我们提出一种触发器发现算法,通过使用少量样本查询目标LLM API,为多种输入生成通用触发器。原创 2026-06-06 09:30:00 · 17 阅读 · 0 评论 -
2025_NIPS_A Graph-Theoretic Framework for Understanding Open-World Semi-Supervised Learning
开放世界半监督学习旨在利用来自已知类别的有标签数据集的先验知识,推断无标签数据中的已知类和新类。尽管该问题具有重要意义,但目前缺乏相应的理论基础。本文通过构建一个专为开放世界场景设计的图论框架填补了这一空白,在该框架中,聚类可通过图因子分解进行理论刻画。我们的图论框架为实际算法提供了启发并给出了性能保证。具体而言,基于我们的图结构表述,我们应用了一种名为谱开放世界表示学习(SORL)的算法,并证明了最小化该损失函数等价于对图进行谱分解。原创 2026-06-06 08:30:00 · 21 阅读 · 0 评论 -
2025_NIPS_Text Promptable Surgical Instrument Segmentation with Vision-Language Models
本文提出了一种新颖的文本可提示手术器械分割方法,以克服微创手术中手术器械多样性和区分性带来的挑战。我们将该任务重新定义为文本可提示形式,从而实现对手术器械更细致的理解,并增强对新型器械的适应性。受视觉语言模型最新进展的启发,我们采用预训练的图像和文本编码器作为模型骨干,并设计了一个包含基于注意力和卷积提示方案的文本可提示掩码解码器,用于手术器械分割预测。我们的模型通过一种新的提示混合机制,为每种手术器械引入多个文本提示,从而提升分割性能。此外,我们还引入了硬器械区域强化模块,以改善图像特征理解和分割精度。原创 2026-06-06 07:30:00 · 20 阅读 · 0 评论
分享