自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(103)
  • 收藏
  • 关注

原创 入选 ICLR 2026!YOLO多尺度融合(附结构图+代码)

摘要:近期基于傅里叶变换改进Attention机制的研究成为热点,特别是在长序列和图数据处理中。不同于线性或稀疏Attention的局部性方法,傅里叶变换通过全局频率域分析,为周期性信号处理提供天然优势。最新研究趋势已从简单替代转向深度融合,如利用傅里叶结果指导注意力矩阵。代表性工作包括:大连理工的GraphFourierTransformer通过图傅里叶变换结合结构掩码和频率滤波器,实现图数据双域特征提取;山东大学的FMF-SLAM系统采用傅里叶注意力替代矩阵乘法,显著降低多模态SLAM计算复杂度。这些创

2026-04-23 18:15:16 324

原创 AI科研写作新突破:谷歌提出PaperOrchestra,AI智能体天团协作,从草稿到LaTeX一键搞定,模拟顶会接收率84%!

本文提出神经分布先验(NDP)框架,解决LiDAR感知中类别不平衡导致的OOD检测难题。通过可学习的注意力模块动态校准OOD分数,结合Perlin噪声合成OOD样本和软性离群点暴露训练策略,在STU数据集上AP提升超10倍。核心创新在于利用神经网络学习预测分布结构,自适应调整置信度偏差,显著提升自动驾驶场景对未知物体的识别能力。

2026-04-20 18:18:12 374

原创 正在爆发!视频扩散模型成论文新赛道,2026发文必冲!

摘要:视频扩散模型因Sora的发布引发广泛关注,但其技术门槛显著高于图像生成。核心挑战在于时序一致性(如帧间连贯性)和计算复杂度(如长视频的显存需求)。当前研究聚焦三大方向:1)时序建模(3DU-Net、时空注意力机制);2)高效采样(DiT架构替代传统U-Net);3)可控生成(文本/动作序列等条件输入)。最新突破包括清华VideoScene框架通过3D感知蒸馏实现单步3D场景生成,以及综述研究系统梳理视频扩散模型的技术体系。该领域研究需兼顾算法创新(如动态去噪策略)与实际应用痛点(如生成效率),纯指标驱

2026-04-14 15:20:28 407

原创 特征金字塔+自注意力封神!NeurIPS发文利器,必须学!

本文介绍了两项基于特征金字塔网络(FPN)改进的目标检测与分割研究。第一项针对手术场景分割,提出时序非对称特征金字塔(TAFPNet),通过双向注意力机制和时序查询传播器解决器械快速移动问题。第二项针对航拍小目标检测,提出跨层特征金字塔Transformer(CFPT),采用跨层注意力交互避免特征丢失。两项研究均通过特定场景下的结构创新,在保持计算效率的同时显著提升性能。研究突出了FPN改进的关键在于注意力机制的应用方式和场景适配性,而非简单结构堆叠。

2026-04-13 18:07:59 358

原创 时序注意力 + 跨帧对齐重磅突破!荣登Nature顶级子刊!

视频理解技术进展与多模态情感分析新方法 近期视频理解领域聚焦时序注意力与跨帧对齐技术,相比传统3D卷积,注意力机制在长视频建模中更具优势。当前研究趋势包括分解式时空注意力、对齐引导注意力和隐式可学习对齐(如NeurIPS 2022的ATA、ICCV 2023的ILA),以解决计算复杂度和运动对齐问题。 在多模态情感分析方向,KAIST提出多模态自注意力网络(MULTIMODAL SELF-ATTENTION NETWORK),通过TaRoPE位置编码和跨时间匹配损失解决音视频帧率不匹配问题。北京邮电大学的D

2026-04-09 15:13:15 370

原创 准确率逼近100%!交叉注意力+特征融合,涨点效果太炸裂!

最近看到两篇很有启发的工作,都围绕“”这一思路展开。多模态特征融合一直是计算机视觉的热点。受自然语言处理中注意力机制的启发,研究者开始探索更高效的特征交互方式。我挑选了两篇值得细读的文章,并整理了,感兴趣的自取~如果你也在寻找这个方向的,这两篇值得好好看看。源 文、姿 料,这儿~

2026-03-20 15:35:24 194

原创 掌握小波变换+CNN,发中科院二区及以上不是问题!

近期的计算机视觉研究越来越关注如何突破传统卷积网络在空间域处理的局限性。本次解析的两篇论文共同探索了将信息,特别是**小波变换 (Wavelet Transform)**,融入深度学习模型以解决不同挑战。第一篇论文《MLWNet》聚焦于任务,针对现有模型在处理真实运动模糊时的复杂性和细节恢复不足问题,提出了一种高效的架构,并首创性地设计了**可学习离散小波变换 (Learnable DWT)**模块。

2026-03-19 18:39:09 536

原创 发LLM论文的核心不是创新,是“讲得通+做得全”!

说个特别真实的事情,我身边那些发LLM论文的同学,其实真没做出什么惊天动地的大创新。他们做的工作吧,说白了就是在现有模型上改个小模块、调一调训练策略,指标也就涨个1%左右,结果人家照样顺利发表。反观我自个儿呢,老想着从头训练个基础模型、搞个大新闻,结果呢?论文进度卡得死死的,连开题都费劲。这其实就是LLM领域的真实写照——真正从零开始训练大模型发论文的,那真是凤毛麟角。

2026-03-12 17:48:12 314

原创 2025 | 南洋理工等提出Light-X,单目视频也能一键换视角与光影!

Light-X这篇论文成功地提出了首个能够对单目视频同时进行相机视角和光照联合控制的生成框架。其核心理论贡献在于巧妙地设计了一套解耦机制,利用动态点云分别承载几何与光照信息,从而将复杂的控制问题简化。在实验上,通过创新的Light-Syn数据合成管线,模型得以在多样化的数据上进行有效训练,并在联合控制与视频重打光两个任务上均取得了超越现有方法的优异表现。这项研究极大地推动了可控视频生成技术的发展,为未来在影视特效、虚拟现实、内容创作等领域的实际应用铺平了道路。

2025-12-08 16:18:08 1017

原创 Neurips2025现场:5篇Oral 炸场,Diffusion 成顶流,扩散从图像卷到语言运动,何恺明都在做!

针对现有运动生成模型在复合序列片段过渡不连续的问题,提出Compositional Phase Diffusion框架,通过SPDM和TPDM模块,在ACT-PAE构建的潜在运动频域中融入语义引导与相邻片段相位细节,学习变长运动片段的语义及过渡相位信息,生成语义对齐且过渡连续的复合运动序列,还可实现运动插值。针对REPA未充分利用判别性表征的问题,提出REG方法,将低层级图像隐变量与预训练模型的高层级类token纠缠用于去噪,在ImageNet上验证其提升生成质量与训练效率的效果,仅引入可忽略的推理开销。

2025-12-05 14:18:56 778

原创 AAAI 2026 Oral 精选:无需训练缓解大模型幻觉,多模态地图生成颠覆传统方案!

AAAI人工智能会议(AAAI Conference on Artificial Intelligence)是人工智能领域的重要国际会议,是CCF-A类推荐会议。AAAI2026将于2026年1月20日-27日在新加坡举办。今年共有23680篇论文投稿,最终4167篇论文接收,录用率17.6%。目前部分论文已公开,小编精选十几篇CV方向论文,希望对大家有所帮助,有需要自取即可。

2025-12-03 17:05:27 989

原创 硬刚潜空间!英伟达&罗切斯特大学发布PixelDiT,用1.61的FID证明:像素级生成才是未来!

本文提出了一种名为PixelDiT的纯Transformer架构,成功地实现了在像素空间进行高效、高质量的图像生成。实验证明,通过双层级设计解耦语义与纹理,并利用像素级调制和令牌压缩等创新技术,像素空间模型可以克服计算瓶颈,在图像保真度和细节表现上展现出优于潜空间模型的潜力。阻碍像素空间生成模型发展的并非表示空间本身,而是缺乏高效的建模架构。PixelDiT为未来的生成模型研究开辟了一条新的、充满希望的道路。

2025-12-02 17:21:52 728

原创 爆款预定:NeurIPS 2025 顶会爆款!吴恩达团队 DeepCluster++ 框架,让 CRC 病理 AI 泛化性碾压现有方案!

今天给大家分享一下吴恩达团队NeurIPS 2025新作:STARC-9。随着数字病理普及,深度学习驱动的多类别组织分类成为核心基础任务,可支撑多种下游应用并减轻医生负担。但现有公开 CRC 数据集存在形态多样性不足、类别不平衡、含错标或低质量切片等痛点,且传统人工标注数据集耗时主观,缺乏标准化构建框架,严重阻碍鲁棒 AI 模型开发。为此,吴恩达团队推出大规模高质量数据集 STARC-9 与 DeepCluster++ 框架,旨在破解上述困境,为 CRC 病理 AI 研究提供可靠数据支撑。

2025-12-01 16:36:42 1020

原创 Nature正刊!复旦科研版凡人修仙传:26岁博士攻克裸眼3D数十年难题,超100°视场角创纪录!

本科就读于郑州大学通信工程专业的马炜杰,因对计算机与人工智能的热爱,大二便主动加入学校服务机器人实验室,如饥似渴地补充专业知识。凭借项目实践中积累的经验,他随团队征战机器人世界杯大赛,多次夺冠并斩获2019年亚太邀请赛冠军,坚定了深耕AI领域的决心。硕士阶段,他在香港中文大学(深圳)精进科研思维与抗压能力,更因赴浙江大学重点实验室访问的契机,在陈昊老师指导下入门三维计算机视觉,点燃了科研热情。硕士毕业后,马炜杰加入上海人工智能实验室、复旦大学与上海创智学院的联合培养项目,师从欧阳万里教授与钟翰森研究员。

2025-11-28 16:39:55 956

原创 AAAI 2026|厦大提出NFA-ViT:现有模型在BR-Gen上集体翻车?它却稳稳领先!

本文直面当前AI生成图像检测领域的一个核心短板——对背景、环境等非物体区域的局部篡改检测能力不足。通过构建一个名为BR-Gen的大规模、高质量数据集,论文成功地量化并暴露了现有方法的局限性。在此基础上,本文提出的NFA-ViT模型,通过一种创新的噪声引导伪造放大机制,能够敏锐地捕捉并放大那些容易被忽略的微弱伪造线索,实现了在检测和定位任务上的双重领先。这项研究不仅为社区提供了一个极具价值的评测基准,也为未来开发更鲁棒、更通用的伪造检测技术指明了新的方向。

2025-11-27 17:46:36 1018

原创 AAAI 26 Oral | 预判你的预判!浙大&上海AI Lab发布RacketVision,用交叉注意力精准预测击球后轨迹!

本文的主要理论贡献是通过构建RacketVision这一新颖的、跨越多项运动的数据集,首次将球拍姿态分析引入到传统的球类运动视觉研究中。实验上,本文最重要的结论是:虽然球拍信息对预测球的轨迹至关重要,但必须使用如交叉注意力这样高级的融合策略才能有效利用它,简单的信息堆砌反而会损害模型性能。这项研究为体育分析领域提供了宝贵的资源和全新的视角,它不仅推动了更精准的运动员表现分析和战术拆解,也为研究动态场景下复杂人-物交互的通用计算机视觉模型提供了坚实的实验平台。

2025-11-26 17:25:57 465

原创 NeurIPS 2025 | 一张图打穿ImageNet!MIT提出线性梯度匹配,训练成本暴降!

本文成功地定义并解决了一个全新的问题:如何为强大的预训练视觉模型蒸馏出小而精的数据集。论文提出的线性梯度匹配方法,通过巧妙地匹配线性分类器的梯度,生成了信息密度极高的合成图像。实验证明,这些仅有“每类一张”的合成图像,其训练效果远超真实图像基准,并能在不同模型间泛化。此外,这项研究还揭示了蒸馏图像可作为一种新颖的工具,用于洞察和理解模型的内部工作机制与潜在偏见。

2025-11-25 17:29:23 435

原创 CV论文速递:覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)

本周精选10篇CV领域前沿论文,覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向。全部300多篇论文已经整理好,感兴趣的自取!

2025-11-24 17:10:35 1184

原创 Meta引爆3D革命!SAM 3D 发布:单张图秒建3D模型,AR/VR、游戏圈炸锅!

SAM 3D成功地将大语言模型中成熟的多阶段训练和对齐范式迁移到了3D视觉领域,证明了结合大规模合成数据预训练和精细化真实世界数据对齐是克服3D数据瓶颈的有效路径。

2025-11-21 17:39:26 1561

原创 ICML AI4Math 最佳论文+NeurIPS 2025 Oral 满分!清华LeapLab:RLVR的巨额投入可能白砸了!

NeurIPS唯一满分论文(四审稿人全给6分)由清华大学LeapLab团队(黄高老师领衔)完成,其抛出的颠覆性结论引发行业震动。真正决定大模型推理上限的是基座模型本身而非强化学习,蒸馏比RLVR(可验证奖励的强化学习)更有望实现模型自我进化——这一观点给作为OpenAI-o1、DeepSeek-R1等主流模型核心驱动力、被视为模型自我进化终极路径的RLVR泼了冷水,也让当前围绕RLVR的巨额投入与探索意义引发热议。相关论文已开源,如有需要可自取!

2025-11-20 16:39:25 1282

原创 2025 | 哈工大&鹏城实验室等提出 Cascade HQP-DETR:仅用合成数据实现SOTA目标检测,突破虚实鸿沟!

这篇论文成功地解决虚拟监督目标检测领域面临的几个核心难题。在理论上,它提出了一套完整且自动化的流程来生成高质量的合成数据,并将虚拟监督学习推向了全监督的新高度。同时,设计的HQP引导查询编码和级联去噪算法,为解决DETR类模型在跨域(从虚拟到现实)应用中的泛化和噪声鲁棒性问题提供了创新的架构方案。在实验上,模型仅依靠合成数据训练,就在真实世界的基准测试中取得了当前最优的性能,并且训练效率远高于此前的模型。

2025-11-18 17:42:55 1056

原创 CV论文速递:覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化等方向(11.10-11.14)

本周精选10篇CV领域前沿论文,覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化、生成模型与域自适应等方向。全部300多篇论文皆可自取。

2025-11-17 15:22:35 1503

原创 AAAI 2026 Oral 之江实验室等提出MoEGCL:在6大基准数据集上刷新SOTA,聚类准确率最高提升超8%!

本文针对多视图聚类中普遍存在的粗粒度信息融合问题,提出了一个名为MoEGCL的创新框架。理论上,它通过MoEGF模块实现了前所未有的样本级动态图融合,并设计了EGCL模块来优化对比学习的目标,使之更符合聚类任务的本质。实验上,模型在六个基准数据集上全面超越了当前最先进的方法。这项研究对后续工作的启示在于,未来的多视图学习可以更多地关注样本间的异质性,设计更为精细和动态的融合策略,而不仅仅停留在视图层面。

2025-11-14 17:23:39 1351

原创 计算机视觉是否已经进入瓶颈期?别被“刷榜放缓”骗了,真正的战场才刚开始!

本文提出了VESSA,一个简单而高效的无监督适配框架,它成功地利用了以物体为中心的短视频,来让强大的视觉基础模型适应新的专业领域。通过引入不确定性加权损失和一套精心设计的“预热-差分”微调策略,VESSA有效克服了无监督微调中常见的模型性能退化问题。实验证明,该方法在多个数据集和模型上都取得了稳定的性能提升。这项研究为如何在缺乏标签数据的情况下,低成本、高效率地应用和扩展视觉基础模型,提供了一个极具价值和实践意义的新思路。

2025-11-13 17:16:36 788

原创 谢赛宁团队最新力作!CLM炸穿3DGS内存天花板!单卡4090驱动1亿高斯,重建质量拉满!

CLM以3DGS计算稀疏性与空间局部性为核心洞察,通过属性级卸载(GPU存关键属性、CPU存非关键属性)、微批流水线(含缓存复用、CPU Adam重叠、TSP调度)等创新设计,成功打破GPU内存壁垒。其无需多GPU或牺牲质量,仅用单块消费级GPU(如RTX 4090)即可训练含1.02亿高斯体的大型场景,重建质量达当前最优,且性能逼近纯GPU方案,为3DGS规模化应用提供了高效可行的解决方案。

2025-11-12 17:10:29 1125

原创 CV论文速递:覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集等方向(11.03-11.07)

本周精选12篇CV领域前沿论文,覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集与模型优化等方向。全部200多篇论文感兴趣的自取!

2025-11-10 16:15:20 1085

原创 2025 | 牛津&中科等强强联手推出 VCode:图像秒变代码,多模态性能暴涨12.3点!

本文的核心结论是,现有的多模态大模型虽然在语言任务上表现出色,但在将真实世界的图像转化为忠实的、符号化的SVG代码方面能力还很欠缺。论文提出了一个全新的基准VCode来度量这种“视觉编码”能力,并设计了VCoder框架,通过“迭代修正”和“调用外部视觉工具”两种方式,显著提升了模型在该任务上的表现。这项研究告诉我们,未来的多模态模型不仅要能“看懂”图像,更要能用一种结构化的、可执行的语言(如SVG)来“复述”和“推理”图像内容,这为研发更智能、更像人一样思考的AI提供了新的启示。

2025-11-07 18:19:00 865

原创 NeurIPS 25 华中科大&国防科大提出NAUTILUS:突破深海视觉边界,首个水下多模态大模型问世!

此外,对于水下生物多样性的挑战,未来可以尝试将零样本学习(zero-shot learning)或小样本学习(few-shot learning)能力融入模型,使其在面对未知物种时也能做出合理的识别和描述,这对于真正的海洋探索应用至关重要。例如,在低光和浑浊场景下,NAUTILUS (LLaVA-1.5) 的性能提升分别高达7.5和8.1 PR@0.5,充分证明了其在复杂多变的水下环境中的强大适应能力。相比之下,NAUTILUS的。它不仅贡献了一个宝贵的数据集和强大的基线模型,更重要的是,它展示了。

2025-11-06 16:25:46 1021

原创 NeurIPS 2025 香港理工&OPPO&哈佛等提出DNAEdit:革新文生图编辑的直接噪声对齐框架!

在理论上,它创新性地设计了“直接噪声对齐”(DNA)来替代传统的反演过程,从根本上解决了误差累积问题,从而获得高度精确的结构化噪声。例如,与同样表现不俗的FTEdit相比,DNAEdit在保持相似的整体CLIP相似度的同时,拥有更好的背景保真度,并且在编辑区域的CLIP得分更高(22.71 vs 22.27),说明它在精确编辑的同时更好地保护了非编辑区。的定性比较结果更加直观。通过这种方式,DNAEdit显著提升了图像编辑的保真度和准确性,能够在保留原始图像背景和结构的同时,精准地完成各种复杂的编辑任务。

2025-11-05 17:52:22 434

原创 ICCV 2025 | 卡内基梅隆大学空间变化自动对焦:基于双像素传感器,一次拍摄校正所有区域焦点!

本文从理论和实验上证明,通过设计一种可编程的计算镜头,可以实现前所未有的空间变化自动对焦能力。其核心结论是,这种方法能够直接在相机传感器上光学地生成一张所有物体都清晰的全对焦图像,避免了传统计算方法对多张照片的依赖和可能引入的图像质量损失。实验数据也证实了该方法(特别是基于相位的 PDAF 版本)在成像质量和效率上相较于现有技术具有显著优势。

2025-11-04 17:14:02 858

原创 CV论文速递: 覆盖医学影像分析、视频理解与生成、3D场景理解与定位等方向! (10.27-10.31)

本周精选12篇CV领域前沿论文,覆盖医学影像分析、视频理解与生成、3D场景理解与定位、视觉安全与实用场景应用等核心方向。全部200多篇论文感兴趣的自取。

2025-11-03 17:48:44 1225

原创 CVPR 2025 |缺陷检测新纪元!双域Transformer刷新三大数据集SOTA!

此外,模型的性能在多大程度上依赖于所选的小波基函数,以及原型数量的设置,也是未来可以深入研究的方向。例如,在ESDIs-SOD数据集上,相比于同样是基于查询的先进方法PEM,本文方法在平均绝对误差(M)上降低了13.6%,在加权F-measure(上图(图4)的F-measure曲线显示,在绝大多数阈值下,本文方法的曲线都位于其他方法的上方,表明其在各种置信度下都能保持稳健和优越的性能。在空间域,如果让查询与图像的所有像素特征进行交互,会引入大量无关的背景信息,干扰模型对缺陷的判断。

2025-10-31 16:45:56 1247

原创 2025 | 北大&阿里等提出UniLIP:小模型大能力,多模态任务全打通!

本文旨在解决现有基于CLIP的统一多模态模型在“理解”与“重建”能力间难以平衡的问题。现有方法或因特征量化而牺牲语义,或因解码器不一致而影响生成保真度。为克服此挑战,论文提出UniLIP框架,其核心技术贡献包括:1)一种新颖的两阶段训练方案,结合自蒸馏损失,使CLIP在保持强大理解能力的同时获得高保真图像重建能力;2)一个为生成与编辑任务设计的双条件架构,该架构联合**多模态大语言模型(MLLM)**的隐藏状态和查询嵌入(query embeddings)共同指导扩散过程,以增强推理和一致性。

2025-10-30 16:21:36 1011

原创 ICLR 2025 | 颠覆!NBP方法推翻传统NBV,复杂室内建图效率飙升!

本研究旨在解决主动3D建图问题,即智能体如何找到一条最高效的轨迹来完全重建一个未知场景。现有方法因其短视的决策模式,容易在复杂环境中陷入局部,且缺乏足够复杂的基准数据集进行评估。为克服这些瓶颈,本文贡献了两个核心成果:提出了一个名为AiMDoom的全新室内场景数据集,通过程序化生成不同几何复杂度的地图,为主动建图研究提供了更具挑战性的基准。提出了一种名为“下一最佳路径(NBP)”的新方法,该方法通过一个统一模型,共同预测指向长期目标的累计表面覆盖增益和环境障碍物,从而规划出最优的探索路径。

2025-10-29 14:53:39 1707

原创 TIP 2025 | 重磅!佛山大学&香港科大等提出UMCFuse,实现复杂场景图像完美融合!

本文旨在解决现有IVIF方法在复杂场景(如恶劣天气、噪声、过曝、火焰等)中性能不佳的问题。为填补这一空白,论文提出了一个名为UMCFuse的统一融合框架。其核心技术贡献在于,首先根据光传输散射程度对可见光图像像素进行分类,从而将精细细节与整体强度分离;其次,为平衡干扰去除与细节保留,提出了一种针对细节层的自适应去噪策略;同时,通过多方向分析来融合来自不同模态的能量特征。

2025-10-28 16:41:22 928

原创 CV论文速递:覆盖3D视觉与场景重建、视觉-语言模型(VLM)与多模态生成等方向!(10.20-10.24)

本周精选12篇CV领域前沿论文,覆盖3D视觉与场景重建、视觉-语言模型(VLM)与多模态生成、视频处理与视觉任务优化、视觉应用与安全防御等核心方向。全部200多篇论文感兴趣的自取。

2025-10-27 16:27:15 909

原创 ICCV 2025 | 武大DVISDepth:深度感知突破外观瓶颈,EDC方法刷新OVIS纪录!

该论文旨在解决视频实例分割(VIS)在面对物体遮挡、运动模糊和剧烈外观变化时,因仅依赖RGB信息而导致的跟踪失败和身份错配问题。为此,研究的核心技术贡献是系统性地探索了三种将单目深度估计与VIS框架融合的范式:1)扩展深度通道(EDC),将深度图作为第四个输入通道;2)共享ViT (SV),让深度估计与分割分支共享一个ViT骨干网络;3)深度监督 (DS),利用深度预测作为辅助监督信号。关键结论是,EDC和SV方法能显著增强VIS的鲁棒性。

2025-10-24 15:39:25 1157

原创 封神之作!CMU的BRICKGPT让文本生成3D积木稳了,喜提ICCV 2025最佳论文!

教育背景:本科毕业于滑铁卢大学(计算机科学与组合优化双学位),卡耐基梅隆大学(CMU)计算机科学在读博士,师从Jun-Yan Zhu教授。研究方向:跨计算机视觉、计算机图形学与人工智能领域,核心探索“如何让AI不仅在计算机中发挥作用,更能落地物理世界”。研究主页:https://avapun.com/

2025-10-23 17:17:45 1308

原创 24.2% 录用率的精华!ICCV2025 Oral 64 篇顶论文,12 大方向引领AI新浪潮!

作为全球计算机视觉领域的顶尖学术盛会,备受业界与学界瞩目的国际计算机视觉大会(ICCV 2025),将于2025年10月19日至23日在美国夏威夷檀香山璀璨启幕。据官方披露,本届大会创下历史新高的投稿规模,共收到11,152篇有效学术论文;经过多轮严苛的同行评审与层层筛选,最终2702篇高质量成果脱颖而出,整体录用率约为24.2%。这一极具竞争力的筛选比例,不仅彰显了ICCV在领域内的核心学术地位,更确保了登台亮相的每一项研究都代表着当前计算机视觉领域的顶尖水准与前沿探索方向。

2025-10-22 17:17:15 1167

原创 TPAMI 2025 | 从分离到融合:新一代3D场景技术实现双重能力提升!

该研究旨在解决现有3D场景生成方法与下游感知任务分离、依赖真值标签、缺乏灵活性和精细约束的问题。核心贡献是提出了 OccScene,一个统一了3D场景感知与生成的相互学习框架。该框架在一个联合扩散过程中,利用感知模型预测的语义占据作为先验,指导文本驱动的场景生成,同时,生成的多样化数据也反哺感知模型的训练。关键技术是一种名为Mamba的模块,它高效地对齐了语义占据信息和扩散模型的潜在特征,确保了跨视角生成的一致性和精细的几何语义引导。

2025-10-21 17:03:48 1152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除