- 博客(3859)
- 资源 (78)
- 收藏
- 关注
转载 NeurIPS 2025 | 华中科大等提出NAUTILUS:首个大规模水下多模态模型,破解深海“看图说话”难题
在NautData测试集上,集成了VFE模块的NAUTILUS(以Qwen2.5-VL为基础)在全部八项任务上,性能相比原始的Qwen2.5-VL都有了一致性的提升,并在大多数任务上超越了包括LLaVA-1.5在内的其他基线模型。这个VFE模块是一个即插即用的组件,它的设计思想借鉴了水下成像的物理先验知识。总的来说,NAUTILUS这项工作通过“构建大规模专属数据集”和“设计基于物理先验的即插即用增强模块”这两大贡献,为水下场景理解这一充满挑战的领域,提供了一个强大且可扩展的解决方案。
2025-11-05 00:03:00
239
转载 Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
想象一下,当我们需要设计一张海报、一份文档或一页PPT时,如果不再需要和复杂的软件参数打交道,只需随手画一个草稿,告诉AI“标题放在这里,图片放在那里”,然后AI就能心领神会地生成一个既美观又专业的布局,这将是多么酷的体验!为了验证合成数据的有效性,他们还专门收集了一小部分由人类绘制的草图用于测试,结果证明,用合成数据训练出的模型在真实草图上也表现优异。总的来说,Sketch-to-Layout不仅开创了一个新的研究方向,还通过巧妙的合成数据策略和强大的多模态模型,提供了一个非常实用且高效的解决方案。
2025-11-04 20:16:32
341
转载 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
CV君认为,NVIDIA这次的工作不仅在模型性能上取得了巨大突破,更重要的是,他们将代码、预训练权重和基准测试全部开源,极大地降低了研究和应用物理AI的门槛。NVIDIA设计了一套复杂的视频处理流水线,对来自不同真实世界来源的原始视频进行筛选、标注和去重,构建了一个为训练世界模型而优化的超大规模数据集。Cosmos-Predict2.5是这次发布的核心,它是一个强大的视频生成模型,能够将文本、图像和视频统一输入,生成高质量、符合物理规律的视频。,模型可以生成多视角的驾驶场景视频,用于感知模型的评估和训练。
2025-11-04 20:16:32
328
转载 NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
通过插值替代近似预测的噪声。假设我们很幸运的取到了那个理想的高斯噪声(即可以以这个高斯噪声为起点生成原图片的那个高斯噪声),那么以这个高斯噪声和原图片插值得到的noisy latent上模型预测的速度(这种 “直接插值生成” 的方式,相当于跳过了传统方法中 “递推近似” 的中间环节,从根源上避免了误差的逐步累积,确保每个时间步的带噪声潜变量都严格贴合真实噪声分布。DNAEdit提出了一种在RF建模下新的获取理想噪声的方案,有效避免了传统的反演导致的累积误差,实现更加精准的初始噪声获取。
2025-11-04 20:16:32
180
转载 加速生成新方法H2-Cache:让扩散模型推理速度飙升5.08倍!图像质量几乎无损
上图的定性比较显示,与基线(Baseline)相比,传统的Block Cache和TeaCache方法虽然加速了推理,但图像质量出现了肉眼可见的下降(例如,蘑菇的细节和赛博朋克场景的氛围感)。H2-Cache的设计思想非常巧妙,它没有去发明一个全新的网络结构,而是通过对现有扩散模型计算过程的深刻理解和精细拆解,实现了“鱼与熊掌兼得”的效果。这种分层检查的机制,使得H2-Cache能够在图像结构稳定时实现最大程度的加速,而在结构变化时,又能保守地保留细节计算,从而避免了画质的严重下降。
2025-11-04 07:03:00
63
转载 遥感领域新作AFM-Net:融合CNN与Mamba,遥感图像分类精度与效率双丰收
通过类激活图(Class Activation Maps, CAM)的可视化,我们可以看到AFM-Net(右)相比于传统的ResNet-50(左),能够更准确地聚焦于图像中的关键目标区域,这得益于其强大的局部-全局协同表征能力。这样做的好处是,模型可以进行更精细化的分工,让不同的专家专注于学习不同的场景模式,从而提升整体的分类精度。简单来说,AFM-Net 的核心思想是“双管齐下”,它设计了一个巧妙的框架,将擅长捕捉局部纹理的CNN和精于把握全局上下文的Mamba架构高效地结合了起来。
2025-11-04 00:03:00
149
转载 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
从理解物体功能、模拟人类思维,到革新知识获取方式,ACM Multimedia 2025的获奖作品共同揭示了多媒体技术的核心趋势:构建更智能、更具交互性的桥梁,连接数字世界与物理现实,连接信息与人类认知。本届大会汇聚了全球顶尖的学者与工程师,以超过7100份的论文提交和突破2000人的参会规模,再次证明了其在学术界和工业界的巨大影响力。: 框架在3D点云网络的不同层级上,都将增强后的文本描述与物体的几何形状进行对齐,通过监督对比学习“拉近”匹配的特征,“推远”不匹配的特征,从而建立起更鲁棒的对应关系。
2025-11-03 14:54:20
231
转载 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
遥感图像超分辨率(RSISR)是遥感图像处理的核心任务,旨在从低分辨率(LR)图像重建高分辨率(HR)图像,以突破传感器固有的空间分辨率限制。随着深度学习架构不断创新和遥感数据规模扩大,超分技术有望在精度、效率和实用性上实现突破,赋能更广泛的遥感应用。近年来,RSISR研究论文数量呈现爆炸式增长(图2),从2014年的零星发表到2025年的数百篇,凸显了该领域的活跃度和重要性。本综述详细总结了主流遥感数据集(表3),并在论文中提供了下载链接,覆盖多模态和多种分辨率数据,为模型训练和评估提供基础。
2025-11-03 14:54:20
285
转载 AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
比如,第一个模块里1、2、3、4号Token是一组,在下一个模块里,它们可能被分到不同的组里,与5、6、7、8号等Token进行交互。这样一来,只需通过简单的重组,就能实现跨组的信息流动,既节省了计算,又保证了全局信息的有效融合,还不需要像UDiT那样引入额外的深度卷积。因此,如何在保证生成质量的同时,设计出更轻量、更快速的模型,成为了一个极具价值的研究方向。此外,论文还通过一系列详尽的消融实验,验证了多路径压缩、位置强化、ASA、AdaLN-affine等各个设计模块的有效性,展示了其严谨的研究过程。
2025-11-03 14:54:20
48
转载 ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
上图就展示了对一个倾斜放置的凯旋门模型的不同对焦方式:全清晰、模拟沙姆定律(Scheimpflug principle)的斜向对焦,以及只让凯旋门本身清晰的选择性对焦。从定性对比(如上面的Planes和Flowers场景)可以看出,该方法在处理大景深和复杂场景时,清晰度和细节表现都非常出色,尤其是在避免小光圈带来的衍射模糊方面优势明显。它不仅解决了传统摄影中景深与光圈的矛盾,还赋予了相机前所未有的、控制光场的能力。上图就展示了这种技术的效果:一张全清晰的照片,以及它背后那个神奇的、空间变化的自定义焦平面。
2025-11-02 12:08:12
167
转载 NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
不同于以往只关注“显著性”(saliency)的方法,SCOPE创新地引入了“覆盖率”(coverage)的概念,力求在剪枝的同时,最大程度地保留原始图像的语义完整性。仅基于显著性的方法(Top)选出的令牌高度集中,而SCOPE(Bottom)选出的令牌则更均匀地分布在整个场景中,语义显然更完整。此外,研究者还发现,当令牌数量较多时,很多“尾部”令牌的注意力分数会趋于扁平,很难再通过这点微小的差异来区分它们的重要性。:对于每一个还没被选中的令牌,计算如果将它加入到已选集合中,能带来多大的“覆盖率增益”。
2025-11-02 12:08:12
141
转载 ICLR 2025 | 中科院&哈工大等新发现:模型性能越好,可解释性越强!
上表显示,模型的原始准确率(Acc Ori)越高,基于解释进行预测的准确率(Acc Inte)也越高,并且准确率保持率(ARR)也更高。:将模型复杂的内部表征,投影到这个概念库构成的“概念空间”中,得到一个由少数几个概念组成的“稀疏解释”。:首先,针对特定任务,建立一个由人类可理解的概念组成的库(比如“有翅膀”、“有羽毛”、“红色的”等文本概念,或是一些典型的视觉部件)。上面得到的“稀疏解释”。上图展示了在ImageNet上,不同模型的预测准确率(横轴)和IIS(纵轴)的关系,可以看到明显的正相关性。
2025-11-02 07:03:00
123
转载 法国CNRS等提出MIRO:多重奖励预训练,让文生图模型一开始就“有品味”,不仅提升质量还加快训练速度!
目前的文生图大模型,比如Stable Diffusion,通常是在海量的、未经筛选的图文数据对上进行训练的,这保证了其强大的泛化和多样性能力。具体来说,MIRO在预训练阶段,除了输入文本提示(text prompt)和带噪声的图片(noisy image)之外,还引入了一个额外的条件——一个由多个奖励模型打分构成的“奖励向量(reward vector)”。从训练过程中的奖励分数变化曲线可以看出,MIRO相比于基线模型,能够更快地达到更高的奖励分数,这意味着它用更少的训练步数就能学到更好的生成能力。
2025-11-02 00:14:23
86
转载 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
这一步的输出,为后续的精细化生成搭建了整体框架。这意味着,无论是巨大的躯干,还是微小的手指,都会在属于自己的“画布”上被精雕细琢,享受同等的、最高的分辨率待遇。这种方法在描述部件的整体布局和大致形状时非常灵活高效,但缺点也同样明显——由于其表示的抽象性,很难捕捉到精细的几何纹理和细节,生成的部件往往显得过于“光滑”或“模糊”。总而言之,FullPart通过一种“分而治之”且“一视同仁”的巧妙策略,成功地在3D部件生成任务中实现了全局一致性与局部高细节的统一,为高质量、可编辑的3D内容创作提供了新的可能。
2025-11-01 12:12:59
71
转载 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
DeepSeek-R1 系列工作的成功表明基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是—种行之有效的大模型后训练方法,能使预训练模型在不依赖大规模、高质量监督数据的情况下,快速习得高级能力或适配到特定场景。无论是Corvid的自我验证,还是CoRL的协同优化,都赋予了模型一种宝贵的“元认知”:与其盲目追求单—的、静态的监督信号,不如赋予其根据上下文动态决策和平衡内部能力的机制。
2025-11-01 12:12:59
113
转载 NeurIPS 2025 | 哈佛大学提出SplitFlow:无需反演的流分解让文生图编辑告别“纠缠”
通过这种方式,SplitFlow 能够抑制语义上的冗余和冲突,同时保留每个编辑指令最核心的意图,从而在保证编辑多样性的同时,也确保了最终结果与完整的、复杂的目标指令高度一致。总的来说,SplitFlow 通过一种新颖的“分而治之”的策略,巧妙地绕开了当前文生图编辑领域的两大核心难题,为实现更自由、更可控的图像内容创作提供了一个非常有前景的新思路。比如你想给“一只猫”加上“一顶帽子”,模型可能会把“帽子”的特征错误地应用到“猫”的身体或背景上,导致不希望的改动。:动态地调整每个子路径的“发言权”。
2025-11-01 07:03:00
76
转载 北京智源研究院提出Emu3.5:原生多模态世界模型,推理加速20倍媲美Gemini 2.5
它不仅在生成质量和效率上取得了突破,更重要的是,它通过统一的框架和对长时序视频的学习,为构建真正理解物理世界、具备因果推理能力的通用AI代理(Embodied Agent)铺平了道路。这里的“原生”是关键,意味着它从设计之初就能同时处理和生成视觉(图片/视频)和语言(文字)信息,而不是像很多现有模型那样,通过“胶水”把独立的视觉模型和语言模型粘在一起。这是整个模型的基础。:最后,通过多任务强化学习,进一步提升模型在多模态推理和生成上的表现,使其生成的内容更符合人类的偏好。
2025-11-01 00:04:00
129
转载 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
作者们绘制了一张时间线,清晰地展示了相关基准的演进历程,从早期的图文对,到如今覆盖视频、音频、3D、交互等多种模态和任务的复杂评测。面对大模型空间推理领域方法众多但缺乏系统性梳理的现状,这篇综述做出的一项关键贡献是作者们构建了一个清晰的分类法(Taxonomy),将复杂的空间推理任务和技术系统地组织起来。论文首先明确了多模态空间推理的范畴,即模型需要从图像、视频、点云、音频、文本等异构输入中,推断出空间关系、位置和动作,并产生可验证的、空间上合理的输出。这背后,空间推理能力是不可或缺的驱动力。
2025-10-31 16:38:42
101
转载 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
作者认为,网络的不同层级包含了不同尺度的语义信息。CV君认为,Region-CAM的思路非常巧妙,它没有陷入现有CAM方法“如何更好地加权特征”的怪圈,而是回归本源,思考“一张好的激活图应该具备什么要素”,并创造性地提出了“提取+传播”的范式,在多个任务上都取得了显著的成功,为弱监督学习领域提供了一个强大而通用的新工具。可以看到,相较于CAM、Grad-CAM和LayerCAM,Region-CAM生成的激活图明显更完整,轮廓也更清晰,几乎完美地覆盖了整个目标物体,为后续的分割任务打下了坚实的基础。
2025-10-31 16:38:42
76
转载 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
通过将静态图像编辑升维到动态的时间序列上进行推理,模型得以利用在视频数据中学到的物理规律,这对于未来构建更强大的世界模型、实现更真实的物理世界模拟具有非常重要的意义。在“思考”清楚编辑该如何发生之后,为了提高效率,模型会丢弃这些中间的“推理令牌”,然后集中“精力”进一步优化和完善目标帧,最终生成我们所见的、高质量且物理一致的编辑后图像。实验结果表明,ChronoEdit在各项指标上都显著优于当前最先进的基线模型,无论是在通用编辑任务还是在考验物理一致性的任务上,都取得了更高的视觉保真度和物理合理性。
2025-10-31 16:38:42
125
转载 ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
而 ReDiff 框架,赋予了模型“主动精炼”的能力,让它在生成新词的同时,还能回头审视并修正已经生成的错误内容,主动地改进生成的上下文环境。在并行生成(一次预测多个词)时,这种相互干扰的问题会更严重:模型在某一步生成了一个错误的词,这个错误立刻污染了上下文,导致模型在下一步预测新词时更加困难,更容易出现错误。我们发现,这主要源于“训练-推理差异”:模型在训练时复原[mask]基于的是完全正确的context,但在推理时,它却必须依赖自己上一步生成的、可能包含错误的内容。
2025-10-31 16:38:42
68
转载 阿尔伯塔大学提出TrajGATFormer:ADE与FDE降低超35%,精准预测施工现场轨迹
简单来说,TrajGATFormer 这个名字融合了 GAT (Graph Attention Networks, 图注意力网络) 和 Transformer,点明了它的核心技术:利用图网络来理解空间中多个对象(人、障碍物)的相互影响,再用 Transformer 捕捉它们在时间上的运动趋势。最近,来自阿尔伯塔大学的研究者们就带来了一个非常有趣的解决方案,他们提出了一种名为 TrajGATFormer 的新方法,专门用来预测工人和障碍物的运动轨迹。除了冰冷的数字,可视化的结果更能直观地展示模型的效果。
2025-10-31 07:00:00
617
转载 DINO-YOLO:融合自监督学习,让土木工程小样本目标检测精度飙升
简单来说,DINO-YOLO 就是把两种强大的技术——自监督学习的 DINOv3 和高效的 YOLOv12 结合在了一起,专门用来在数据稀缺的土木工程领域做物体检测。因此,当一个大容量的 YOLO 模型在只有几百或几千张图片的数据集上训练时,很容易出现过拟合,模型学到的知识泛化能力很差,一到真实场景就“水土不服”。传统的物体检测模型,像大家熟悉的YOLO系列,虽然强大,但在这种“小样本”的情况下,很容易“吃不饱”,导致性能不佳。当然,性能提升的同时,计算开销也是我们需要关注的。
2025-10-31 07:00:00
189
转载 上海交大、宁波东方理工等联手发布UniScenev2:基于全球最大语义占据数据集,革新自动驾驶场景生成
像之前的UniScene等方法,已经证明了这种方法的潜力,它通过先生成占据,再基于占据生成视频和点云,形成了一个层次化的生成流程。当我们在谈论自动驾驶的未来时,高质量、大规模、多样化的模拟场景生成,无疑是推动技术迭代和安全验证的关键。然而,如何生成既真实又丰富的多模态驾驶场景,一直是业界的一大挑战。方面,生成的视频在清晰度(FID)和时序连贯性(FVD)上都表现更优,尤其是在动态物体的结构保持上,效果提升明显。不仅如此,它的分辨率也更高(400x400x32),能够描绘出更清晰的车辆结构和更平滑的路面。
2025-10-31 00:03:00
95
转载 ICCV 2025 | 高德等提出SeqGrowGraph:以链式图扩展革新车道拓扑生成
通过将图的构建过程重塑为一系列增量式的局部扩展,该方法能够精确、灵活地建模包括环路在内的复杂真实世界道路结构,克服了传统方法的局限性。其生成的拓扑网络与真值高度一致,展现了卓越的建模稳定性和可靠性。然而,现有方法常将车道图简化为有向无环图(DAG),这不仅无法表达现实世界中常见的环形结构,还可能因图到序列的转换方式不当而破坏原有的拓扑信息。SeqGrowGraph 将类人的结构化推理方式与强大的序列建模能力相结合,为自动驾驶领域的在线高精地图构建提供了高效、可靠的新范式,推动了相关技术的发展。
2025-10-31 00:03:00
118
转载 北大&清华推出RT-DETRv4:大模型甘当陪练,实时检测器性能免费再升级!
可以看到,一个强大的VFM(如DINOv3)作为“教师”,将其提取的高质量语义特征,通过DSI模块“注入”到实时检测器(学生)的深层特征中。对比上(基线模型)下(RT-DETRv4)两行特征图,可以清晰地看到,经过DSI模块增强后,无论是AIFI的输出F5,还是后续融合的特征P3, P4, P5,物体轮廓都更清晰,背景干扰更少,语义表征质量得到了肉眼可见的提升。CV君认为,RT-DETRv4提出的这种“训练时辅助,推理时无踪”的框架,为轻量级模型的发展提供了一个极具价值和可扩展性的新范式。
2025-10-30 16:11:03
201
转载 ACM MM 2025 首届微视觉计算研讨会成功举办
之后,来自武汉大学、中山大学、香港科技大学(广州)、Fraunhofer IGD、郑州大学、四川大学等机构的与会者积极交流,就微视觉计算的关键问题与前沿趋势进行了深入讨论。音视频欺骗检测[1, 2, 3]是一种非接触式检测技术,相比接触式检测(测谎仪、脑电图、近红外光谱等)具有显著优势:1)突破了地理限制,无需面对面接触即可进行分析,具有极高的便捷度和检测效率,更适用于商业谈判和在线面试等场景;2)可以减少被检测者的心理压力,使其在自然环境中表现更为真实,有助于提高检测的准确性。
2025-10-30 16:11:03
80
转载 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
最近,基于Transformer的扩散模型(DiT)在图像编辑领域可以说是风生水起,但大家在享受AI带来便利的同时,可能也遇到过一个头疼的问题:生成的图像要么“改过头”,要么“没改到位”,很难精准控制编辑的“力度”。从下面的对比图可以看出,随着引导尺度的增加,CFG的编辑效果很快就“崩了”,而GRAG则能保持平滑、连续的变化,更准确地反映了用户的编辑意图。CV君觉得,GRAG的巧妙之处在于它没有引入复杂的模块,而是从模型内部机制的深刻洞察出发,用一个“四两拨千斤”的方法解决了实际痛点。不同引导策略的对比。
2025-10-30 08:33:52
78
转载 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
接着,通过一个精细的视频标注工作流,为每个视频打上丰富的标签。它的亮相,不仅在多个视频生成任务上表现出色,更在高质量长视频的高效生成上取得了显著突破,可以说是向着构建“世界模型”迈出了坚实的一步。在视频续写任务中,LongCat-Video能够生成分钟级别的长视频而质量不衰减,并且支持在生成过程中根据新的指令改变内容,展现了强大的交互生成潜力。这个模型最吸引人的地方在于它用一个统一的架构,同时实现了文生视频、图生视频和视频续写等多种任务,并且能在几分钟内生成720p、30fps的高清视频。
2025-10-29 13:08:46
164
转载 IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
CV君认为,STG-Avatar的巧妙之处在于它没有试图用一个“万能模型”去解决所有问题,而是将刚性运动和非刚性细节这两个不同性质的问题解耦,并用最适合的技术(LBS和STG)分别应对,最后通过光流进行智能化的资源调配。传统方法,比如基于NeRF(神经辐射场)的技术,虽然能生成高质量的数字人,但训练和渲染速度都太慢,动辄需要几十个小时训练,渲染一帧也要好几秒,离“实时”相去甚远。而STG则在此基础上,对3D高斯球进行时空维度的自适应优化,专门捕捉和补偿LBS无法处理的非刚性变形,比如衣服的褶皱和摆动。
2025-10-29 13:08:46
194
转载 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
他们提出了一种名为BOB(Beyond Objects)的新方法,旨在解决一个困扰业界已久的难题:如何利用文生图(T2I)模型,为细粒度分类任务生成高质量的训练数据,尤其是在只有少量真实样本(即“少样本学习”)的情况下。它不仅仅是简单地生成图片,而是通过因果干预的思想,从根本上提升了合成数据的质量和多样性,对于推动AIGC技术在严肃的科研和工业场景中的落地,具有非常重要的价值。例如,提示语不再是简单的“一张波音737的照片”,而是“一张波音737的照片,背景是雪山,从侧面拍摄”。:这是BOB最巧妙的一步。
2025-10-29 13:08:46
70
转载 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
SNELLA引入的核函数,相当于将低秩矩阵映射到更高维的空间再做运算,极大地增强了模型的表达能力,让权重的更新更加灵活和强大,从而更好地适应下游任务。CV君认为,SNELLA提出的这种将核方法与动态稀疏性结合的思路非常新颖,它不仅解决了现有稀疏微调方法的痛点,也为未来如何更高效地利用大模型提供了宝贵的启发。但这个过程忽略了微调过程中参数本身的变化,有点“刻舟求剑”的意思,限制了最终的性能。:在每一层内部,所有权重更新的重要性也会被评估,只有那些得分最高的“优胜者”才会被保留,其余的则被置为零。
2025-10-29 13:08:46
40
转载 NeurIPS 2025 | 华科大新作MERGE:生成与感知「即插即用」,一个模型双模切换,性能与效率兼得!
在同一预训练文生图模型PixArt的设置下,与完全微调的Marigold相比,MERGE-B仅用其约18%的可训练参数,就取得了高度可比的深度估计性能,最关键的是,MERGE完整保留了模型的生成能力。面对上述瓶颈,MERGE的作者团队另辟蹊径,其核心思想并非“替换”或“重建”,而是“释放”——他们认为,感知能力作为一种视觉先验,已经潜藏在预训练T2I模型中,只需找到正确的钥匙去解锁。:在视觉效果上,MERGE生成的深度图在细节上更加清晰准确,尤其在处理中空区域、反光表面等传统难题上,表现出强大的鲁棒性。
2025-10-29 00:01:00
64
转载 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
通过这样一个看似简单的改动,研究者们不仅让 DiT 获得了 3D 感知与控制能力,还在新视角合成(NVS)与空间感知编辑(spatial-aware editing)等任务中展现出强大潜力。研究者将其中 16 个 head 扩展到 patch-level 以下 1/16 的细节表示,虽然未到 pixel-level,但显著提升了空间精度,同时保持了与原有架构的兼容性。这样一来,Transformer 不需要完全 3D 化,只要在 PE 上动手,就能显式融入 3D 信息,实现对空间层次的建模。
2025-10-28 16:24:58
45
转载 CUPID:单图秒速重建3D,港大提出姿态引导新范式
比如结合了3D GAN或扩散模型,这类方法能够生成完整的3D形状,但常常难以保证生成的三维模型和输入图片在视角、纹理上完全对齐,有时会产生“幻觉”,生成一些不符合实际的细节。总的来说,CUPID通过一个设计精巧的“姿态估计+引导生成”框架,很好地解决了单图3D重建中的核心痛点,在保证重建速度的同时,也实现了非常高的保真度和几何准确性。然后,它会利用这个姿态信息,从2D图像中提取出“姿态对齐”的条件特征,包括高层的语义特征和底层的视觉特征(如颜色、纹理)。后者的目标是创造新物体,而CUPID的目标是。
2025-10-28 16:24:58
88
转载 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
像VAE这样的早期方法,因其特征缺少语义,导致理解性能较差。在GenEval (0.90) 和WISE (0.63) 图像生成基准上,UniLIP凭借卓越的文图对齐能力,不仅超越了同规模模型,还达到了与BAGEL等更大模型相当的水平。为实现精准编辑,UniLIP设计了双条件架构,同时利用大模型的隐变量(保留图像细节)和查询嵌入(激发推理能力),确保编辑任务的高度一致性。该方法使其在实现高质量图像重建的同时,能完整保留CLIP原有的语义理解性能,成为一个强大的统一编码器,在生成和编辑任务上表现突出。
2025-10-28 16:24:58
37
转载 Feed-Forward 3D综述:三维视觉进入“一步到位”时代
后续工作 MASt3R、Fast3R、CUT3R、SLAM3R、VGGT 等相继提出更高效的多视整合,长序列记忆机制,以及大场景处理能力等。Generative Diffusion-based:以 Zero-1-to-3、SyncDreamer、MVDream、CAT3D、CAT4D 为代表,将图像或视频扩散模型迁移到三维生成领域。论文收录了超过 30 个常用 3D 数据集(见第13页表1),涵盖对象级、室内、室外、静态与动态场景,标注模态包括 RGB、深度、LiDAR、语义与光流等。
2025-10-28 16:24:58
65
转载 ICCV‘25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
欣欣在2023年开始筹备这个科研项目,中间一波三折,很幸运得到合作伙伴们的支持:Abaka AI 提供的标注服务,Exascale Labs 的算力和基建,2077AI、Zillow Networks 还有几位艺术家和科研朋友等的帮助。即使目前最大的Objaverse,里头很多扫描入库的模型并不适合生成鲜艳的表面纹理和清晰的拓扑结构。这个分类器也一并开源了出来,供大家自行探索。使用 Objaverse ++ 的数据标注,筛选出 Objaverse 里质量较高的部分,用更少的算力训练出更好的AI。
2025-10-27 14:48:36
41
转载 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
CV君认为,这个框架的设计非常巧妙,它没有重新发明轮子,而是聪明地站在了SAM2和CLIP这两个巨人的肩膀上,通过精心设计的适配器和融合模块,成功地将它们的能力迁移到了变化检测这个具体任务上。结果表明,无论是基础的Hiera编码器(SAM2所用),还是新加入的TFAM和V-LFD模块,都对最终性能有显著贡献,证明了设计的合理性。这正是本研究的核心动机。总的来说,LG-CD通过巧妙地结合视觉和语言信息,不仅提升了变化检测的准确性,更重要的是赋予了模型“按需检测”的灵活性,为遥感图像分析领域带来了新的思路。
2025-10-27 14:48:36
135
转载 “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
当视觉Token爆炸成为多模态大模型的最大负担,EPIC提出“渐进一致蒸馏”这一全新思路——不改模型结构、不加参数,却让模型在压缩中越学越强。Token Consistency Distillation (TCD): 让模型在训练初期仅轻微压缩视觉Token,随后逐步提高压缩比例——就像从“低海拔”出发,一步步适应高原。不改变模型结构,不新增参数,而是让模型“自己教自己”,一步步学会在被压缩的视觉世界中保持聪明。多模态大语言模型(MLLMs)正在重塑AI的边界,让模型不仅能理解语言,更能“看懂世界”。
2025-10-27 14:48:36
284
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
数学建模个人经验谈共九个部分
2010-05-19
经过裁剪预处理的人脸识别研究用FERET数据库
2010-05-06
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
2010成都信息工程学院研究生数模赛题
2010-05-19
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
Automatic visual/IR image registration
2010-09-25
贝叶斯决策理论机器学习数据挖掘
2010-06-29
流形学习问题manifold study
2010-06-29
OpenCV1.0安装文件
2010-06-25
“中兴捧月”软件测试自动化附件
2010-06-12
Statistical Pattern Recognition:A Review
2010-09-25
handwriten digit recognition by combined classifiers
2010-09-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅