遥感AI科研-CSDN博客

原创 ArXiv 26 S2M框架：从掩码中提取结构化文本，实现零成本多模态遥感变化检测

本文提出了一种新颖的遥感变化检测方法S2M，通过从现有掩码标签中自动提取结构化文本信息（位置、类别、类型、数量），实现零成本的多模态监督。该方法采用两阶段训练策略，结合视觉骨干网络和文本引导对齐模块，有效解决了语义模糊性问题。实验表明，S2M在多个数据集上显著优于基线模型，特别是减少了微小目标的漏检。该方法的创新点在于挖掘现有数据的隐含价值，无需额外标注或大模型支持，为资源受限场景提供了高效解决方案。

2026-05-14 11:28:19 340

原创港中深新作：MPerS架构：融合DINOv3与动态混合专家MLLM，实现遥感分割新SOTA

本文提出了一种创新的遥感图像语义分割方法，通过多模态大语言模型生成高质量文本描述来提升分割精度。研究团队设计了动态混合专家文本编码器（DMTE），利用三种不同视角的提示词引导多个MLLM生成多样化描述，并通过门控机制自适应筛选最优文本特征。结合语言查询引导注意力（LQGA）模块，该方法实现了文本语义对视觉特征的有效引导。实验表明，在多个遥感数据集上，该模型在mIoU和mF1指标上均显著优于现有方法，特别是在处理密集小目标时展现出明显优势。该研究为提升遥感图像理解提供了"高质量输入+智能融合&quo

2026-05-13 12:17:48 347

原创入选 ICLR 2026！YOLO多尺度融合（附结构图+代码）

摘要：近期基于傅里叶变换改进Attention机制的研究成为热点，特别是在长序列和图数据处理中。不同于线性或稀疏Attention的局部性方法，傅里叶变换通过全局频率域分析，为周期性信号处理提供天然优势。最新研究趋势已从简单替代转向深度融合，如利用傅里叶结果指导注意力矩阵。代表性工作包括：大连理工的GraphFourierTransformer通过图傅里叶变换结合结构掩码和频率滤波器，实现图数据双域特征提取；山东大学的FMF-SLAM系统采用傅里叶注意力替代矩阵乘法，显著降低多模态SLAM计算复杂度。这些创

2026-04-23 18:15:16 401

原创 AI科研写作新突破：谷歌提出PaperOrchestra，AI智能体天团协作，从草稿到LaTeX一键搞定，模拟顶会接收率84%！

本文提出神经分布先验(NDP)框架，解决LiDAR感知中类别不平衡导致的OOD检测难题。通过可学习的注意力模块动态校准OOD分数，结合Perlin噪声合成OOD样本和软性离群点暴露训练策略，在STU数据集上AP提升超10倍。核心创新在于利用神经网络学习预测分布结构，自适应调整置信度偏差，显著提升自动驾驶场景对未知物体的识别能力。

2026-04-20 18:18:12 419

原创正在爆发！视频扩散模型成论文新赛道，2026发文必冲！

摘要：视频扩散模型因Sora的发布引发广泛关注，但其技术门槛显著高于图像生成。核心挑战在于时序一致性（如帧间连贯性）和计算复杂度（如长视频的显存需求）。当前研究聚焦三大方向：1）时序建模（3DU-Net、时空注意力机制）；2）高效采样（DiT架构替代传统U-Net）；3）可控生成（文本/动作序列等条件输入）。最新突破包括清华VideoScene框架通过3D感知蒸馏实现单步3D场景生成，以及综述研究系统梳理视频扩散模型的技术体系。该领域研究需兼顾算法创新（如动态去噪策略）与实际应用痛点（如生成效率），纯指标驱

2026-04-14 15:20:28 586

原创特征金字塔+自注意力封神！NeurIPS发文利器，必须学！

本文介绍了两项基于特征金字塔网络(FPN)改进的目标检测与分割研究。第一项针对手术场景分割，提出时序非对称特征金字塔(TAFPNet)，通过双向注意力机制和时序查询传播器解决器械快速移动问题。第二项针对航拍小目标检测，提出跨层特征金字塔Transformer(CFPT)，采用跨层注意力交互避免特征丢失。两项研究均通过特定场景下的结构创新，在保持计算效率的同时显著提升性能。研究突出了FPN改进的关键在于注意力机制的应用方式和场景适配性，而非简单结构堆叠。

2026-04-13 18:07:59 377

原创时序注意力 + 跨帧对齐重磅突破！荣登Nature顶级子刊！

视频理解技术进展与多模态情感分析新方法近期视频理解领域聚焦时序注意力与跨帧对齐技术，相比传统3D卷积，注意力机制在长视频建模中更具优势。当前研究趋势包括分解式时空注意力、对齐引导注意力和隐式可学习对齐（如NeurIPS 2022的ATA、ICCV 2023的ILA），以解决计算复杂度和运动对齐问题。在多模态情感分析方向，KAIST提出多模态自注意力网络（MULTIMODAL SELF-ATTENTION NETWORK），通过TaRoPE位置编码和跨时间匹配损失解决音视频帧率不匹配问题。北京邮电大学的D

2026-04-09 15:13:15 392

原创准确率逼近100%！交叉注意力+特征融合，涨点效果太炸裂！

最近看到两篇很有启发的工作，都围绕“”这一思路展开。多模态特征融合一直是计算机视觉的热点。受自然语言处理中注意力机制的启发，研究者开始探索更高效的特征交互方式。我挑选了两篇值得细读的文章，并整理了，感兴趣的自取~如果你也在寻找这个方向的，这两篇值得好好看看。源文、姿料，这儿~

2026-03-20 15:35:24 210

原创掌握小波变换+CNN，发中科院二区及以上不是问题！

近期的计算机视觉研究越来越关注如何突破传统卷积网络在空间域处理的局限性。本次解析的两篇论文共同探索了将信息，特别是**小波变换 (Wavelet Transform)**，融入深度学习模型以解决不同挑战。第一篇论文《MLWNet》聚焦于任务，针对现有模型在处理真实运动模糊时的复杂性和细节恢复不足问题，提出了一种高效的架构，并首创性地设计了**可学习离散小波变换 (Learnable DWT)**模块。

2026-03-19 18:39:09 578

原创发LLM论文的核心不是创新，是“讲得通+做得全”！

说个特别真实的事情，我身边那些发LLM论文的同学，其实真没做出什么惊天动地的大创新。他们做的工作吧，说白了就是在现有模型上改个小模块、调一调训练策略，指标也就涨个1%左右，结果人家照样顺利发表。反观我自个儿呢，老想着从头训练个基础模型、搞个大新闻，结果呢？论文进度卡得死死的，连开题都费劲。这其实就是LLM领域的真实写照——真正从零开始训练大模型发论文的，那真是凤毛麟角。

2026-03-12 17:48:12 328

原创 2025 | 南洋理工等提出Light-X，单目视频也能一键换视角与光影！

Light-X这篇论文成功地提出了首个能够对单目视频同时进行相机视角和光照联合控制的生成框架。其核心理论贡献在于巧妙地设计了一套解耦机制，利用动态点云分别承载几何与光照信息，从而将复杂的控制问题简化。在实验上，通过创新的Light-Syn数据合成管线，模型得以在多样化的数据上进行有效训练，并在联合控制与视频重打光两个任务上均取得了超越现有方法的优异表现。这项研究极大地推动了可控视频生成技术的发展，为未来在影视特效、虚拟现实、内容创作等领域的实际应用铺平了道路。

2025-12-08 16:18:08 1042

原创 Neurips2025现场：5篇Oral 炸场，Diffusion 成顶流，扩散从图像卷到语言运动，何恺明都在做！

针对现有运动生成模型在复合序列片段过渡不连续的问题，提出Compositional Phase Diffusion框架，通过SPDM和TPDM模块，在ACT-PAE构建的潜在运动频域中融入语义引导与相邻片段相位细节，学习变长运动片段的语义及过渡相位信息，生成语义对齐且过渡连续的复合运动序列，还可实现运动插值。针对REPA未充分利用判别性表征的问题，提出REG方法，将低层级图像隐变量与预训练模型的高层级类token纠缠用于去噪，在ImageNet上验证其提升生成质量与训练效率的效果，仅引入可忽略的推理开销。

2025-12-05 14:18:56 797

原创 AAAI 2026 Oral 精选：无需训练缓解大模型幻觉，多模态地图生成颠覆传统方案！

AAAI人工智能会议（AAAI Conference on Artificial Intelligence）是人工智能领域的重要国际会议，是CCF-A类推荐会议。AAAI2026将于2026年1月20日-27日在新加坡举办。今年共有23680篇论文投稿，最终4167篇论文接收，录用率17.6%。目前部分论文已公开，小编精选十几篇CV方向论文，希望对大家有所帮助，有需要自取即可。

2025-12-03 17:05:27 1041

原创硬刚潜空间！英伟达&罗切斯特大学发布PixelDiT，用1.61的FID证明：像素级生成才是未来！

本文提出了一种名为PixelDiT的纯Transformer架构，成功地实现了在像素空间进行高效、高质量的图像生成。实验证明，通过双层级设计解耦语义与纹理，并利用像素级调制和令牌压缩等创新技术，像素空间模型可以克服计算瓶颈，在图像保真度和细节表现上展现出优于潜空间模型的潜力。阻碍像素空间生成模型发展的并非表示空间本身，而是缺乏高效的建模架构。PixelDiT为未来的生成模型研究开辟了一条新的、充满希望的道路。

2025-12-02 17:21:52 767

原创爆款预定：NeurIPS 2025 顶会爆款！吴恩达团队 DeepCluster++ 框架，让 CRC 病理 AI 泛化性碾压现有方案！

今天给大家分享一下吴恩达团队NeurIPS 2025新作：STARC-9。随着数字病理普及，深度学习驱动的多类别组织分类成为核心基础任务，可支撑多种下游应用并减轻医生负担。但现有公开 CRC 数据集存在形态多样性不足、类别不平衡、含错标或低质量切片等痛点，且传统人工标注数据集耗时主观，缺乏标准化构建框架，严重阻碍鲁棒 AI 模型开发。为此，吴恩达团队推出大规模高质量数据集 STARC-9 与 DeepCluster++ 框架，旨在破解上述困境，为 CRC 病理 AI 研究提供可靠数据支撑。

2025-12-01 16:36:42 1041

原创 Nature正刊！复旦科研版凡人修仙传：26岁博士攻克裸眼3D数十年难题，超100°视场角创纪录！

本科就读于郑州大学通信工程专业的马炜杰，因对计算机与人工智能的热爱，大二便主动加入学校服务机器人实验室，如饥似渴地补充专业知识。凭借项目实践中积累的经验，他随团队征战机器人世界杯大赛，多次夺冠并斩获2019年亚太邀请赛冠军，坚定了深耕AI领域的决心。硕士阶段，他在香港中文大学（深圳）精进科研思维与抗压能力，更因赴浙江大学重点实验室访问的契机，在陈昊老师指导下入门三维计算机视觉，点燃了科研热情。硕士毕业后，马炜杰加入上海人工智能实验室、复旦大学与上海创智学院的联合培养项目，师从欧阳万里教授与钟翰森研究员。

2025-11-28 16:39:55 1003

原创 AAAI 2026｜厦大提出NFA-ViT：现有模型在BR-Gen上集体翻车？它却稳稳领先！

本文直面当前AI生成图像检测领域的一个核心短板——对背景、环境等非物体区域的局部篡改检测能力不足。通过构建一个名为BR-Gen的大规模、高质量数据集，论文成功地量化并暴露了现有方法的局限性。在此基础上，本文提出的NFA-ViT模型，通过一种创新的噪声引导伪造放大机制，能够敏锐地捕捉并放大那些容易被忽略的微弱伪造线索，实现了在检测和定位任务上的双重领先。这项研究不仅为社区提供了一个极具价值的评测基准，也为未来开发更鲁棒、更通用的伪造检测技术指明了新的方向。

2025-11-27 17:46:36 1050

原创 AAAI 26 Oral | 预判你的预判！浙大&上海AI Lab发布RacketVision，用交叉注意力精准预测击球后轨迹!

本文的主要理论贡献是通过构建RacketVision这一新颖的、跨越多项运动的数据集，首次将球拍姿态分析引入到传统的球类运动视觉研究中。实验上，本文最重要的结论是：虽然球拍信息对预测球的轨迹至关重要，但必须使用如交叉注意力这样高级的融合策略才能有效利用它，简单的信息堆砌反而会损害模型性能。这项研究为体育分析领域提供了宝贵的资源和全新的视角，它不仅推动了更精准的运动员表现分析和战术拆解，也为研究动态场景下复杂人-物交互的通用计算机视觉模型提供了坚实的实验平台。

2025-11-26 17:25:57 526

原创 NeurIPS 2025 | 一张图打穿ImageNet！MIT提出线性梯度匹配，训练成本暴降！

本文成功地定义并解决了一个全新的问题：如何为强大的预训练视觉模型蒸馏出小而精的数据集。论文提出的线性梯度匹配方法，通过巧妙地匹配线性分类器的梯度，生成了信息密度极高的合成图像。实验证明，这些仅有“每类一张”的合成图像，其训练效果远超真实图像基准，并能在不同模型间泛化。此外，这项研究还揭示了蒸馏图像可作为一种新颖的工具，用于洞察和理解模型的内部工作机制与潜在偏见。

2025-11-25 17:29:23 450

原创 CV论文速递：覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)

本周精选10篇CV领域前沿论文，覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向。全部300多篇论文已经整理好，感兴趣的自取！

2025-11-24 17:10:35 1225

原创 Meta引爆3D革命！SAM 3D 发布：单张图秒建3D模型，AR/VR、游戏圈炸锅！

SAM 3D成功地将大语言模型中成熟的多阶段训练和对齐范式迁移到了3D视觉领域，证明了结合大规模合成数据预训练和精细化真实世界数据对齐是克服3D数据瓶颈的有效路径。

2025-11-21 17:39:26 1661

原创 ICML AI4Math 最佳论文+NeurIPS 2025 Oral 满分！清华LeapLab：RLVR的巨额投入可能白砸了！

NeurIPS唯一满分论文（四审稿人全给6分）由清华大学LeapLab团队（黄高老师领衔）完成，其抛出的颠覆性结论引发行业震动。真正决定大模型推理上限的是基座模型本身而非强化学习，蒸馏比RLVR（可验证奖励的强化学习）更有望实现模型自我进化——这一观点给作为OpenAI-o1、DeepSeek-R1等主流模型核心驱动力、被视为模型自我进化终极路径的RLVR泼了冷水，也让当前围绕RLVR的巨额投入与探索意义引发热议。相关论文已开源，如有需要可自取！

2025-11-20 16:39:25 1359

原创 2025 | 哈工大&鹏城实验室等提出 Cascade HQP-DETR：仅用合成数据实现SOTA目标检测，突破虚实鸿沟！

这篇论文成功地解决虚拟监督目标检测领域面临的几个核心难题。在理论上，它提出了一套完整且自动化的流程来生成高质量的合成数据，并将虚拟监督学习推向了全监督的新高度。同时，设计的HQP引导查询编码和级联去噪算法，为解决DETR类模型在跨域（从虚拟到现实）应用中的泛化和噪声鲁棒性问题提供了创新的架构方案。在实验上，模型仅依靠合成数据训练，就在真实世界的基准测试中取得了当前最优的性能，并且训练效率远高于此前的模型。

2025-11-18 17:42:55 1070

原创 CV论文速递：覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化等方向（11.10-11.14）

本周精选10篇CV领域前沿论文，覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化、生成模型与域自适应等方向。全部300多篇论文皆可自取。

2025-11-17 15:22:35 1579

原创 AAAI 2026 Oral 之江实验室等提出MoEGCL：在6大基准数据集上刷新SOTA，聚类准确率最高提升超8%！

本文针对多视图聚类中普遍存在的粗粒度信息融合问题，提出了一个名为MoEGCL的创新框架。理论上，它通过MoEGF模块实现了前所未有的样本级动态图融合，并设计了EGCL模块来优化对比学习的目标，使之更符合聚类任务的本质。实验上，模型在六个基准数据集上全面超越了当前最先进的方法。这项研究对后续工作的启示在于，未来的多视图学习可以更多地关注样本间的异质性，设计更为精细和动态的融合策略，而不仅仅停留在视图层面。

2025-11-14 17:23:39 1384

原创计算机视觉是否已经进入瓶颈期？别被“刷榜放缓”骗了，真正的战场才刚开始！

本文提出了VESSA，一个简单而高效的无监督适配框架，它成功地利用了以物体为中心的短视频，来让强大的视觉基础模型适应新的专业领域。通过引入不确定性加权损失和一套精心设计的“预热-差分”微调策略，VESSA有效克服了无监督微调中常见的模型性能退化问题。实验证明，该方法在多个数据集和模型上都取得了稳定的性能提升。这项研究为如何在缺乏标签数据的情况下，低成本、高效率地应用和扩展视觉基础模型，提供了一个极具价值和实践意义的新思路。

2025-11-13 17:16:36 808

原创谢赛宁团队最新力作！CLM炸穿3DGS内存天花板！单卡4090驱动1亿高斯，重建质量拉满！

CLM以3DGS计算稀疏性与空间局部性为核心洞察，通过属性级卸载（GPU存关键属性、CPU存非关键属性）、微批流水线（含缓存复用、CPU Adam重叠、TSP调度）等创新设计，成功打破GPU内存壁垒。其无需多GPU或牺牲质量，仅用单块消费级GPU（如RTX 4090）即可训练含1.02亿高斯体的大型场景，重建质量达当前最优，且性能逼近纯GPU方案，为3DGS规模化应用提供了高效可行的解决方案。

2025-11-12 17:10:29 1156

原创 CV论文速递：覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集等方向（11.03-11.07）

本周精选12篇CV领域前沿论文，覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集与模型优化等方向。全部200多篇论文感兴趣的自取！

2025-11-10 16:15:20 1105

原创 2025 | 牛津&中科等强强联手推出 VCode：图像秒变代码，多模态性能暴涨12.3点！

本文的核心结论是，现有的多模态大模型虽然在语言任务上表现出色，但在将真实世界的图像转化为忠实的、符号化的SVG代码方面能力还很欠缺。论文提出了一个全新的基准VCode来度量这种“视觉编码”能力，并设计了VCoder框架，通过“迭代修正”和“调用外部视觉工具”两种方式，显著提升了模型在该任务上的表现。这项研究告诉我们，未来的多模态模型不仅要能“看懂”图像，更要能用一种结构化的、可执行的语言（如SVG）来“复述”和“推理”图像内容，这为研发更智能、更像人一样思考的AI提供了新的启示。

2025-11-07 18:19:00 877

原创 NeurIPS 25 华中科大&国防科大提出NAUTILUS：突破深海视觉边界，首个水下多模态大模型问世！

此外，对于水下生物多样性的挑战，未来可以尝试将零样本学习（zero-shot learning）或小样本学习（few-shot learning）能力融入模型，使其在面对未知物种时也能做出合理的识别和描述，这对于真正的海洋探索应用至关重要。例如，在低光和浑浊场景下，NAUTILUS (LLaVA-1.5) 的性能提升分别高达7.5和8.1 PR@0.5，充分证明了其在复杂多变的水下环境中的强大适应能力。相比之下，NAUTILUS的。它不仅贡献了一个宝贵的数据集和强大的基线模型，更重要的是，它展示了。

2025-11-06 16:25:46 1067

原创 NeurIPS 2025 香港理工&OPPO&哈佛等提出DNAEdit：革新文生图编辑的直接噪声对齐框架！

在理论上，它创新性地设计了“直接噪声对齐”（DNA）来替代传统的反演过程，从根本上解决了误差累积问题，从而获得高度精确的结构化噪声。例如，与同样表现不俗的FTEdit相比，DNAEdit在保持相似的整体CLIP相似度的同时，拥有更好的背景保真度，并且在编辑区域的CLIP得分更高（22.71 vs 22.27），说明它在精确编辑的同时更好地保护了非编辑区。的定性比较结果更加直观。通过这种方式，DNAEdit显著提升了图像编辑的保真度和准确性，能够在保留原始图像背景和结构的同时，精准地完成各种复杂的编辑任务。

2025-11-05 17:52:22 493

空空如也

空空如也