LLM 炼丹炉-CSDN博客

原创把论文变成可提问的科研知识库：Zotero + Obsidian + Codex（ChatGPT 5.6）联动升级版教程，让你释放双手

通过这套流程，我们把Zotero、Obsidian 和 Codex串联起来，实现了从论文检索、下载、导入 Zotero、分类打标签，到批量精读、生成 Obsidian 笔记，再到基于个人论文库提问和总结的完全自动流程。其中，Zotero 负责管理文献，Obsidian 负责沉淀笔记，Codex 负责自动处理和调用内容。这样，论文不再只是“存起来”，而是真正变成可以持续检索、整理和复用的科研知识库。本文用到的软件下载地址模板文件Skills 和插件安装包和详细步骤，我都打包好了。联动升级！

2026-07-14 12:00:03 75

原创数据增强不再只是“造数据”：顶会论文中的五类创新切口（下）

合成数据的价值，不只取决于它如何生成，还取决于它如何被模型使用。动态课程学习说明，不同训练阶段需要不同类型的样本；筛选、分布校正和重要性重加权则说明，合成数据不能被默认视为与真实数据同等可靠。这意味着，数据增强的创新空间并不只在生成器本身。回看上下两篇，完整逻辑可以概括为：先构造可靠数据，再设计可靠学习过程。我们还结合 8 篇其他顶会工作，另外整理了一份《数据增强的可延展研究路径（下）》代表工作针对问题如何解决，以及现有方案还留下哪些值得继续探索的空白。免费获取。

2026-07-10 09:26:22 186

原创数据增强不再只是“造数据”：顶会论文中的五类创新切口（上）

上述讨论的三类方法说明，数据增强的重点正在从“扩大样本规模”转向“设计模型真正需要的训练信号”。无论是让样本匹配目标模型的能力边界，为检测、图文理解等任务加入可控结构与可验证标签，还是将问答扩写升级为概念重组、多路径比较和错误修订，本质上都在回答同一个问题：什么样的数据值得被生成？但样本生成得正确，并不代表可以直接、等权地投入训练。合成数据应在何时加入、哪些样本应被保留，以及怎样让它们真正转化为训练增益。如果你正在挖掘数据增强的研究切口，或希望为医疗、遥感、工业检测、代码安全等。

2026-07-10 09:25:05 278

原创 CVPR 2026 | 失败反馈驱动数据生成：HATS 构建更可靠的 GUI Agent 训练数据

HATS 最有特色的设计，是把 instruction-execution misalignment 转成 hardness signal：对不齐的地方不只是噪声，也可能是上下文缺失、顺序依赖或视觉歧义集中出现的地方。HATS 用这个信号反过来指导探索，再用 replay/refinement 把难轨迹洗成可训练样本。更有针对性的 hard trajectory synthesis，确实比随机探索和 one-shot 指令生成更适合训练 GUI agent。

2026-07-08 09:45:42 157

原创 ICLR 2026 | 用少量标注构造多步推理数据：COGS 用合成数据和过程奖励增强多模态大模型

COGS 解决的是一个很现实的问题：模型不缺视觉数据，但缺少复杂推理标注。它的做法可以浓缩成三步：先把少量种子题拆成感知和推理因子，再拿这些因子去新图像上组合出新题，最后把中间步骤变成强化学习中的过程奖励。COGS 最有价值的地方，不是简单的数据生成，而是拆解了数据生成的思路。

2026-07-07 10:28:40 233

原创读了3天源码没头绪？我用这套 Codex + Skills，2小时拆解完顶会代码并成功魔改

很多人把科研代码阅读想成一件很苦的事：打开仓库，从第一个.py文件开始硬啃。但更高效的方式，往往不是一开始就陷进细节，而是先建立全局视角。今天介绍的三个 Skill，对于刚开始复现论文的人来说，是一条更容易进入状态的学习路线。对于已经读懂基线、准备做改造的人来说，它也能帮助你少走一点“模块乱插、实验乱跑”的弯路。这套 Skills 尚未公开，添加小助理，安装包直接免费发你。👇👇👇读了3天源码没头绪？我用这套 Codex + Skills，2小时拆解完顶会代码并成功魔改。

2026-07-07 10:27:54 237

原创 Codex + PaperPilot-skills：从论文检索到精读再到迁移，一小时跑通全流程（附 Skill 安装包）

回到开头的三个问题：筛出该读的论文、读懂核心方法、想清楚怎么迁移到自己的课题。这个 Skills 仓库就是把这三步变成可执行的具体指令，这样输出的不再是一句“很有启发”的泛泛之谈，而是一份可以接着往下推的迁移方案草案。每一步都有明确的输入和输出，每一步的产出都沉淀在项目文件夹里，方便随时复查和继续推进。我把这个 skills 仓库和使用示例打包好了，免费发给你。获得方式在这👇：Codex + PaperPilot-skills：从论文检索到精读再到迁移，一小时跑通全流程（附 Skill 安装包）

2026-07-06 09:55:17 246

原创 DeepSeek 装上 DSpark「涡轮增压」，接入 Codex 后科研编码快到飞起

把 DeepSeek 接入 Codex，本质上是给 Codex 换一个更便宜、更快的模型后端。对于许多想要体验 Codex 却有种种限制或者是想要减轻成本的朋友是一个很好的选择。为了方便各位直接使用，我打包了Windows x64 的 Codex + CC switch 安装包和DeepSeek API Key 申请和使用教程。DeepSeek 装上 DSpark「涡轮增压」，接入 Codex 后科研编码快到飞起。

2026-07-02 11:45:18 152

原创把论文变成可提问的科研知识库：Zotero + Obsidian + Codex 联动教程

以前用 Zotero 只是存论文，存完怎么用基本靠标签和脑子记。现在把 Zotero、Obsidian 和 Codex 串起来之后，读过的每篇论文都能变成以后可以直接调用的素材，阅读本身也成了一个持续积累的过程。本文用到的软件下载地址模板文件Skills 安装包和详细步骤，我都打包好了。把论文变成可提问的科研知识库：Zotero + Obsidian + Codex 联动教程。

2026-06-29 12:01:31 551

原创多模态大模型下一站：从看图，到看懂视频，再到世界模型

论文将视频理解分为三个层次：低层几何理解（深度估计、相机位姿、光流跟踪等任务正从独立走向联合建模）；高层语义理解（涵盖视频分割、目标跟踪和时间定位等任务）；以及统一视频模型（整合问答、生成、推理等功能）。最新趋势显示，视频模型正从单纯的任务执行向构建动态世界表征演进，关键挑战包括长视频记忆管理、流式推理和状态更新能力。这些突破将推动视频大模型、具身智能和多模态Agent的发展。

2026-06-26 17:35:39 391

原创 MLLM会看不会画？RepFusion让冻结MLLM读噪声，GenEval提升27%

RepFusion提出了一种新的多模态图像生成方法，通过将预训练的多模态大模型（MLLM）引入扩散过程的每一步去噪阶段，有效弥合了视觉理解与生成之间的鸿沟。该方法将传统VAE潜空间升级为语义更强的RAE表征空间，使冻结的MLLM能够动态读取带噪视觉表征，并为扩散模型提供细粒度的动态条件信号。实验表明，这种设计显著优于静态文本条件或重复计算方案，最高达到GenEval 0.87，验证了预训练MLLM视觉先验对生成任务的重要价值。该工作突破了MLLM仅作为前端文本编码器的局限，为多模态生成系统提供了新思路。

2026-06-23 15:16:18 310

原创无痛安装 Codex：手把手教你走完下载到使用科研 Skill 的全过程

我们还注意到，近期不少同学反馈Codex安装中遇到各种报错，我们整理了近期的真实问题反馈，按 Windows 和 Mac 分类，并附上经过验证的解决步骤。为避免各位在下载过程中遇到的困难，我们还准备了 Mac 和 Win 的安装包。如果你也在安装过程中出现问题，欢迎后台私信我【B636】，这份问题解决指南和安装包会免费发送给您。

2026-06-16 10:41:07 1425

原创具身智能的下一个风口：不是更大模型，而是更聪明的Skill进化机制

【摘要】近期AI研究正从"更大模型"转向"更聪明的外部技能机制"，Skill进化成为提升Agent能力的新方向。三个代表性研究展示了技能全生命周期的创新：1）SkillEvolver通过元技能自动生成可复用技能，在83个任务上反超人工技能13.3%；2）EmbodiSkill区分执行失败与技能缺陷，通过四层反思机制提升具身任务成功率至93.28%；3）达尔文.skill引入可量化的棘轮优化机制，实现技能评分的持续提升。这些工作共同构建了"生成-进化-优化&q

2026-06-09 10:34:56 394

原创自回归、扩散、混合:三大统一多模态范式怎么选?

本文系统梳理了GPT-4o之后多模态生成的三大技术路线：1）纯自回归（AR）路线通过统一token化处理图文数据，架构简洁但生成效率低；2）纯扩散路线采用并行去噪生成，图像质量高但推理能力较弱；3）混合路线结合AR的语义规划和扩散的生成优势，成为当前主流方案。文章对比了各路线代表模型的技术特点、优势短板及适用场景，建议研究者从混合架构入手，重点关注tokenization、跨模态注意力和训练数据三大核心问题。不同路线分别押注架构扩展性（AR）、生成质量（扩散）和综合性能（混合），为研究者提供了明确的技术选型

2026-06-03 18:16:06 268

原创统一多模态理解与生成:GPT-40之后最值得入门的一张地图

这篇综述文章探讨了统一多模态理解与生成模型的最新进展，分析了三大技术范式：纯扩散模型（擅长图像生成但推理能力弱）、纯自回归模型（推理能力强但图像生成效率低）以及混合架构（结合两者优势）。文章指出该领域的核心挑战在于表示方法、跨模态交互和评估基准，并强调这一方向对实现GPT-4o级别多模态能力的重要性。作为持续更新至2026年的综述，它为研究者提供了清晰的技术路线图，特别适合初入该领域的研究生快速把握前沿动态和潜在研究方向。

2026-06-02 18:17:45 328

原创 CVPR|Video-MME:判断模型“会不会看视频“的统一标尺

【视频理解评测新基准】Video-MME（CVPR2025）解决了视频多模态领域缺乏统一评测标准的核心痛点。该基准通过覆盖不同时长/类型/场景的视频内容，综合评估模型在时序推理、细粒度识别等维度的能力，已被Gemini、GPT等旗舰模型采纳为官方评测标准。其创新点在于：1）建立首个全面视频评测体系；2）揭示采样帧数/分辨率对成绩的影响；3）持续维护避免数据失效。目前该基准已成为衡量视频理解能力的"行业标尺"，但未来仍需应对专业场景覆盖和防刷分等挑战。关注公众号"LLM炼丹炉&q

2026-06-01 14:13:01 390

原创 7B小模型逆袭70B?强化学习如何点燃多模态大模型的推理能力

本文介绍了DeepSeek团队提出的Vision-R1多模态推理模型，该模型通过"冷启动数据构造+强化学习精炼"的两阶段训练范式，显著提升了多模态模型的逐步推理能力。针对多模态推理数据稀缺的痛点，Vision-R1创新性地采用"模态桥接"方法自动生成高质量思维链数据（Vision-R1-cold数据集），并提出渐进式思考抑制训练（PTST）解决模型"过度思考"问题。实验显示，仅7B参数的Vision-R1在MathVista基准上达到73.5%准确

2026-05-29 16:13:44 236

原创 IEEE 26 | 参数量不是关键：4B模型VeriGround在匿名化电路生成任务上性能超越GPT-5.4

本文揭示了多模态大语言模型（MLLM）在"视觉到代码"任务中存在"海市蜃楼"缺陷：模型会绕过视觉输入，依赖文本提示中的语义信息生成代码模板，而非真正理解电路图。研究提出VeriGround解决方案，通过标识符匿名化训练数据和决策聚焦偏好对齐算法（D-ORPO），强制模型学习视觉拓扑结构。实验表明，4B参数的VeriGround在匿名化测试中功能正确率达42.51%，显著优于GPT-5.4等大模型。该工作不仅构建了诊断性基准C2VEVAL，其训练范式还可推广至其他视觉编

2026-05-14 11:46:10 421

原创新加坡国立大学最新研究：冻结Backbone，激活潜能：解耦多模态模型中的潜变量优化与利用

多模态大模型训练中存在"沉默视觉潜变量"问题：模型为走捷径会抑制视觉推理能力。最新研究提出推理阶段优化方案，通过"预热-强化"两阶段操作，在不修改模型参数的情况下唤醒被压抑的视觉潜能。该方法首先提升潜变量语义质量，再通过置信度递进奖励机制强制模型使用潜变量，在多个基准测试中性能显著提升（最高达14%），且计算效率优于传统方法。这一发现为提升多模态模型推理能力提供了新思路，表明"推理时优化"可能成为未来研究热点。

2026-05-13 18:04:55 390

原创荣登NeurIPS！Agent规划 + 多模态大模型取得新突破，这波操作杀疯了！

多模态Agent研究前沿综述当前研究聚焦于将多模态大模型与Agent规划能力结合，以突破单一模型的被动响应局限。最新成果如FusionAgent和LCVN框架展现了三大创新方向：动态模型选择：通过强化学习实现样本级最优模型组合（如FusionAgent的ACT分数融合方法）；语言条件导航：华盛顿大学提出的LCVN任务结合扩散模型与自回归架构，实现开放环路的语言引导导航；世界建模优化：引入扩散强制机制增强长时序任务表现，并通过KL散度损失对齐专家与学习者规划。研究趋势表明，审稿更关注规划可解释性、跨

2026-04-14 15:16:28 456

原创 CVPR 26 爆款方向！多模态幻觉检测，POPE评测让VLM不再“瞎编“！

摘要：多模态大模型存在严重幻觉问题，如虚构物体或错误计数，影响高精度场景应用。当前研究聚焦三种检测方向：存在性、属性及推理链幻觉分析。两篇顶会论文提出创新方案：北京交大团队基于D-S理论开发单次前向传播的EUQ框架，实现内部冲突与信息缺失的显式量化；西北工大团队设计医疗VQA专用的V-Loop系统，通过视觉逻辑闭环验证事实准确性。研究强调需在真实噪声数据（非COCO等干净数据集）测试以验证泛化性。相关代码和教程已开源供复现改进。（149字）

2026-04-13 18:13:19 424

原创多模态+数据工程新突破！连中SCI一区TOP刊！

【摘要】近期研究聚焦多模态数据分析与数据工程创新。ByteHouse提出云原生数据仓库架构，通过分层存储设计（统一表引擎、SSD缓存等）实现实时多模态分析，在ClickBench等基准测试中性能提升25%-50%。SemBench则构建首个面向语义查询处理的基准测试框架，支持文本/图像/音频多模态分析，开发55个含语义操作符的测试查询，并建立针对LLM不确定性的量化评估体系。两篇研究共同显示：1）存储优化对多模态处理效率具有决定性影响；2）标准化评估框架是推动领域发展的关键基础设施。相关代码与评估方案已开源

2026-04-09 18:15:53 344

原创小波变换+Mamba重磅结合！硬核思路就是好上分

这一组合，最近简直成了视觉领域的‘上分利器’！从让雾霾瞬间消散的去雾王炸，到刷新轻量化性能标杆的，再到攻克 4K 极暗环境的，这一方向正以横扫之势霸占各大顶会顶刊。，强强联手，性能提升简直是‘降维打击’！正因如此，该方向已得到学术界的高度认可，且创新空间巨大，是目前发表顶会论文的绝佳风口。无论是从切入，都能挖掘出极具竞争力的创新点。本文整理了小波变换+Mamba前沿论文，很多都是顶会顶刊成果，大家可参考这些最新的技术以及思路，快速找到自己的idea。

2026-03-26 16:48:30 430

原创强烈推荐！transformer+卡尔曼滤波！新成果已登一区TOP

摘要：Transformer与卡尔曼滤波的融合正成为学术研究新热点，其互补优势催生多个创新应用。本文精选16篇前沿论文，涵盖自动驾驶目标融合（HiLO框架）、零样本状态估计（FM-UKF）及毫米波追踪（m3TrackFormer）等突破性成果。这些研究通过注意力机制重构传统流程，在性能指标上实现显著提升（如F1分数提高25.9%），同时保持模型可解释性。部分开源工作提供可复现代码，为研究者提供可靠基线。该方向兼具理论价值与应用潜力，是值得关注的高潜力领域。

2026-03-25 17:53:23 399

原创频域+特征融合：深度学习的黄金组合，顶会顶刊的快速通道

空间-频域协同方法在视觉任务中取得突破性进展，涌现出SFAFNet、DuFal、MDAFNet等代表性工作。这些方法通过融合空间域的局部结构与频域的全局/高频特性，解决了传统CNN模型高频细节捕捉不足的问题。SFAFNet采用门控空间-频域特征融合模块，DuFal创新性地使用双路径编码架构，MDAFNet则结合多尺度边缘补偿与双域自适应增强。这些技术在图像去模糊、医学影像重建和红外小目标检测等领域展现出显著优势，为视觉任务提供了全新的双域处理范式。

2026-03-24 17:18:23 571

原创又登Nature！特征提取发文大道果真宽又阔啊！

特征提取研究正呈现多维融合趋势，重点关注数据稀缺、可解释性和多信息融合场景。本文整理了21篇前沿论文，涵盖移动App评论特征提取（T-FREX框架将任务重构为NER）、时间线异常检测（基于"意外性学习"理论）和太阳能预测（多模态Transformer模型）等创新方法。这些研究通过引入新范式如将认知科学理论与信息论结合、利用公共摄像头数据等，在保持可解释性的同时提升了性能。所有论文均附带开源代码，可作为baseline参考。

2026-03-23 17:50:12 379

原创多模态特征融合完全是发文密码！易创新，轻松冲击双1区TOP刊！

多模态特征融合研究前沿：本文综述了多模态AI领域的最新进展，重点介绍了三种创新方法。MUFASA模型通过标题引导的多模态融合和稀疏注意力机制，解决了长序列推荐难题；CVPR2025研究系统分析了视觉特征融合的最佳实践，提出了层级选择黄金法则；ICCV2025的ProtoMM框架利用最优传输实现测试时自适应，动态更新多模态原型。这些工作共同推动了跨模态深层关联挖掘、计算效率优化和动态适应能力的发展，为多模态研究提供了新思路。

2026-03-19 18:02:00 394

原创为什么那些“看起来差不多”的多模态论文能稳定发表？

当前多模态研究已从基础框架创新转向精细化改进，形成了一套高效发表策略。本文揭示了8种常见范式：融合层增强、细粒度对齐、多尺度融合、轻量化结构、损失函数优化、模块组合、垂直场景适配和泛化能力验证。这些策略基于成熟框架（如CLIP、BLIP）进行针对性优化，强调动机清晰、实验完整和逻辑自洽。研究指出，应用型论文更看重严谨改进而非颠覆创新，通过1%-3%的性能提升、详实的消融实验和跨领域验证即可形成有效贡献。这种结构化方法为研究者提供了可复用的科研路径，平衡创新性与发表可行性。

2026-03-16 12:27:23 362

原创选对Baseline，你的研究就成功了80%

本文探讨AI科研中Baseline选择的关键策略，提出三大黄金法则：生命力（持续活跃引用）、可落地（代码可复现）和高拓展性（模块化设计）。以目标检测领域的DETR为例，分析其作为优质Baseline如何通过端到端无NMS范式推动创新，并衍生出RT-DETR等改进模型。文章最后推介14天免费科研训练营，承诺提供个性化诊断、实操指导和独家资源，帮助研究者快速建立有效Baseline。

2026-03-12 11:56:41 265

原创 AAAI 2026 新鲜出炉！17.6%神仙录取率，揭秘Hinton、LeCun都关注的7大AI风口！

AAAI2026会议聚焦大模型前沿研究，精选7篇核心论文。研究涵盖：1）基于梯度表示优化的推理增强方法；2）MLLM指导的多模态嵌入学习；3）强化学习的视觉语言模型后门防御；4）上下文依赖表情符号消解基准测试；5）功能感知的低秩适配初始化策略；6）视觉语言模型的细粒度因果追踪框架；7）语言可分离性指导的多语言数据预选方法。这些研究为大模型推理、安全、应用等关键问题提供了创新解决方案。论文合集可通过原文链接获取。

2025-11-28 18:01:03 1523

原创 EMNLP 25 获奖论文合集 | 最佳论文封神！PB级数据搜索终结悬案，GPT-4o被指“严重污染”

EMNLP2025最佳论文解析：聚焦NLP前沿突破 EMNLP2025会议在苏州举行，共接收1600篇论文，整体接收率21.3%。最佳论文奖授予《INFINI-GRAMMINI》，该研究创新性地采用FM-index数据结构，实现PB级文本的高效精确n-gram搜索，为LLM训练数据审计提供关键工具。7篇杰出论文覆盖多个前沿领域：LINGGYM构建首个低资源语言元语言推理评估基准；ValueActionLens框架首次量化LLM"价值-行动"错位率；DiscoSG提出话语级场景图解析新方法

2025-11-26 18:12:20 1446

原创大模型前沿周报 (11.17-11.23)：覆盖领域专用LLM与多智能体架构，LLM推理、表征优化与逻辑建模等方向

本期精选10篇大模型前沿论文，涵盖多个研究方向：1）领域专用LLM与多智能体架构，如OpenBioLLM开源基因组问答框架；2）LLM推理优化与逻辑建模，包括ProRAC神经符号推理框架；3）评估基准与安全隐私，如MermaidSeqBench图表生成评估基准和CIMemories隐私风险评估；4）跨领域应用与伦理影响，包括自动驾驶行为分析及公平算法操纵风险研究。这些成果展示了LLM在性能提升、安全可靠性和跨领域应用方面的最新进展，为技术落地提供新思路。

2025-11-24 18:16:08 1066

原创陈丹琦团队再出重磅！SLIM框架破解长程Agent上下文难题，ICLR 2026已投！

陈丹琦团队提出SLIM框架，破解长程智能体搜索的上下文管理难题。该研究针对现有框架因上下文溢出、工具预算耗尽等问题导致的性能下降，创新性地将检索拆分为独立搜索与浏览工具，并引入周期性轨迹总结机制。实验显示，SLIM在BrowseComp和HLE基准上分别达到56%和31%的准确率，超越开源基线8-4个百分点，同时减少4-6倍工具调用。该框架在o3、o4-mini和Claude-4-Sonnet等不同模型上均表现稳定，为长程搜索系统提供了高效解决方案。研究已提交ICLR2026评审，相关代码开源。

2025-11-21 17:55:41 773

原创超越思维链！邱锡鹏团队定义AI推理新范式：“视频思考”，让GPT-4o看到都得点赞！

【摘要】复旦大学邱锡鹏团队提出创新性"视频思考"范式，突破现有"文本/图像思考"在动态推理和多模态融合上的局限。研究构建了包含4149个样本的VideoThinkBench基准测试集，涵盖视觉中心与文本中心两大任务类别。实验显示，Sora-2在视觉推理任务上与主流视觉语言模型性能相当，在文本推理任务上取得MATH 92%、MMMU 75.53%的准确率。研究证实视频生成模型具备统一多模态理解与生成的潜力，少样本学习和自一致性可显著提升模型性能，为多模态AI发展开辟了新

2025-11-20 16:49:01 1092

原创清华LeapLab重磅发现：强化学习正在“扼杀”大模型的推理潜力！

【摘要】清华大学团队研究发现，当前强化学习(RL)技术并未真正提升大语言模型的推理能力。通过pass@k评估方法(采样1024次)，实验表明RL训练后的模型在数学、编程等任务中并未超越基础模型的能力边界，反而缩小了问题解决范围。研究揭示RL仅优化了已有知识的输出效率，却牺牲了基础模型原有的多元解决能力。相比之下，知识蒸馏能真正扩展模型能力。该成果对当前过度依赖RL提升模型性能的做法提出了重要警示，为未来探索新型算法指明了方向。（149字）

2025-11-14 17:19:20 842

原创 LeCun、李飞飞、谢赛宁联手定义多模态新方向：终结长文本内卷，走向「世界模型」

本文提出Cambrian-S模型框架，旨在提升AI对视频的三维空间感知能力。通过四阶段训练流程（视觉-语言对齐、图像指令微调、通用视频微调和空间视频微调），结合大规模空间推理数据集VSI-590K，模型在VSI-Bench等基准测试中表现优异。创新性地引入"预测性感应"机制，利用模型的"惊奇感"信号来高效处理长视频：对预测误差小的帧进行压缩存储，重点保留意外变化的关键帧。实验表明，该方法在长达4小时的视频中仍能保持稳定的空间回忆和物体计数性能，显著优于现有商业模型。研

2025-11-12 18:24:11 829

原创大模型前沿周报 (11.3-11.9)：覆盖多模态大模型能力优化与评估、行业场景化智能系统等方向

【大模型前沿研究综述】本期精选论文聚焦多模态大模型优化、行业智能系统等方向：1）Struct2D提出结构化2D框架实现空间推理；2）MMPerspective构建首个透视理解基准；3）PRISM评估多模态隐私风险。行业应用方面，LLM增强的空气质量监测和临床试验评估系统展现了落地潜力。LLM智能体优化方向提出记忆管理方案MemSearcher和课程学习策略。此外，PolyNorm实现少样本文本标准化，四象限人设分类体系为AI伴侣开发提供框架。这些研究推动了大模型在推理能力、行业落地和安全性等方面的进步。

2025-11-10 15:41:25 761

空空如也

空空如也