- 博客(122)
- 资源 (13)
- 收藏
- 关注
原创 pytorch gpu安装教程(Perfect完美系列)
安装环境其实很简单,只需找到一个好的教程就足已;如果你觉得有困难,那么一定就是还没找到一个好的教程。
2021-07-17 11:03:11
11914
18
原创 ECCV 2026 | 从静态拟合到动态分配:AMG-Fuse 用模态贡献Mask破解恶劣天气下的融合难题
Multi-modality Image Fusion under Adverse Weather: Mask-Guided Feature Restoration and Interaction(恶劣天气下的多模态图像融合:Mask 引导的特征恢复与交互)作者Xilai Li、Xiaosong Li\*、Haishu Tan、Tao Ye、Huafeng Li、Hongbin Wang
2026-06-28 20:34:09
280
原创 CVPR 2026 | 没有红外图怎么办?可见光缺失怎么办?SynthRGB-T 让两种模态自由转换!
▸ 标题:SynthRGB-T: Language-Vision Guided Image Translation for Diversity Synthesis▸ 作者:Jiangang Ding, Yiquan Du, Pengxiang Li, Lili Pei, Yuanlin Zhao†, Wei Li†▸ 单位:长安大学、香港理工大学▸ 会议:CVPR 2026◆ 一句话总结
2026-06-28 20:28:13
298
原创 AAAI 2026 Oral | 大连民族大学提出M²-CoFS:用流形视角终结融合与分割的“边界战争”
AAAI 2026 Oral | Breaking Task Boundaries: A Unified Model for 3D Medical Image Fusion and Segmentation Guided by Manifold Perspective
2026-06-26 19:21:02
478
原创 ICML 2026 | Expandable, Compressible, Mineable: Open-World Thermal Image Restoration
ICML 2026 | Expandable, Compressible, Mineable: Open-World Thermal Image Restoration
2026-06-26 19:16:05
208
原创 CVPR 2026 | 图像融合的区域自适应学习:每个区域配个专属专家,让模型学会“看人下菜“
RegionFuse: Region-Adaptive Pixel Distribution Learning for Infrared and Visible Image Fusion | 面向红外与可见光图像融合的区域自适应像素分布学习
2026-06-21 14:12:33
495
原创 CVPR 2026 | TACO + OxfoLD:面向 LiDAR 定位与 3D 目标检测的联合学习框架与新数据集
TACO: Task-Aware Contrastive Learning for Joint LiDAR Localization and 3D Object Detection | TACO:面向 LiDAR 定位与 3D 目标检测联合学习的任务感知对比学习
2026-06-21 14:03:08
397
原创 CVPR 2026 | MMVIP:一个全新的红外与可见光融合数据集,面向真实海域场景
MMVIP: A Visible-infrared Paired Dataset for Multi-weather Marine Vision,MMVIP:面向多天气海洋视觉的可见光-红外配对数据集 广东工业大学团队在CVPR 2026上发布了首个覆盖真实海上复杂天气的红外-可见光配对数据集MMVIP,包含128,100张精确对齐图像和50段标注视频,涵盖晴天、雾天、台风等7类典型海况。
2026-06-13 13:44:02
587
原创 TIP 2026 | 雨雾雪全搞定!一个模型用「文字」教会图像融合看懂恶劣天气
本文提出AWM-Fuse方法,通过全局与局部双层文本感知机制解决恶劣天气下多模态图像融合的难题。创新点包括:1)采用统一框架处理雨雾雪等多种退化;2)设计GTPM和LTPM模块分别实现场景级先验引导与细节恢复;3)引入VLM驱动损失增强语义对齐;4)构建首个恶劣天气多模态文本基准AWMM-Text。实验表明,该方法在退化去除、颜色保真等方面显著优于现有技术,在下游任务中提升目标检测mAP 4.7%、分割mIoU 3.2%。局限性在于VLM特征提取带来较高计算开销(1145.5G FLOPs)。该研究为恶劣环
2026-06-13 13:38:28
346
原创 学术速递 | CVPR 2026 放榜!图像融合迎来大爆发,可检索 17 篇相关论文,全网首发!
CVPR 2026图像/视频融合研究综述 本文汇总了CVPR 2026中17篇关于图像和视频融合的前沿研究,涵盖红外-可见光融合、视频时序处理、退化鲁棒性等热点方向。主要趋势包括:从单一图像清晰度转向复杂场景应用,如处理模态缺失、错位和下游任务适配等挑战。研究亮点包括退化鲁棒扩散模型(DRFusion/ReCoFuse)、可控偏好对齐(DPOFusion/CLDyN)和视频融合一致性(VideoFusion)等创新方法。武汉大学、江南大学等机构表现活跃。这些工作突破了传统严格配对数据的限制,探索了未配对训练
2026-06-06 18:46:10
573
原创 学术速递 | AAAI 2026 Accepted Papers For Image Fusion @ 请选出你心中的最佳论文!
AAAI 2026图像融合研究热点概览 本次AAAI会议共收录15篇图像融合相关论文(4篇Oral,11篇Poster)。研究呈现四大趋势: 真实场景鲁棒性:如武汉大学提出的RFC框架通过语言指令实现退化感知融合; 跨任务协同:大连民族大学的M²-CoFS首次统一了医学图像融合与分割任务; 新型架构应用:厦门大学等团队将Mamba架构引入通用融合任务; 交互式控制:吉林大学等提出的ControlFuse实现了掩码引导的可控融合。
2026-05-30 21:06:21
236
原创 恶劣天气红外与可见光图像融合:佛山大学团队系列研究与 AWMM-100k 基准数据集
恶劣天气下多模态图像融合研究进展与大规模基准数据集AWMM-100K 摘要:多模态图像融合技术在自动驾驶、无人机监测等领域具有重要应用价值,但现有研究多聚焦理想成像条件,对雨、雾、雪等恶劣天气干扰研究不足。为此,研究团队构建了AWMM-100K大规模基准数据集,包含10万+对精准配准的红外-可见光图像,涵盖三种天气的轻、中、重三个退化等级,并融合了合成与真实采集数据。围绕该数据集,团队提出了多项创新成果:UMCFuse框架通过物理统一表征实现复杂场景自适应融合;AWFusion将优化目标转向关键信息表征,化
2026-05-28 23:21:01
290
原创 CVPR 2026 | Fusion in Your Way:一个模型,四类需求,统一搞定人类、VLM、检测与分割
Fusion in Your Way: Aligning Image Fusion with Heterogeneous Demands via Direct Preference Optimization | 按你所愿的融合:基于直接偏好优化的图像融合异构需求对齐
2026-05-23 16:01:22
579
原创 CVPR 2026|分而治之,熵引择路!解耦·感知·择路:SEGD 破解红外图像复合退化困局
Breaking Degradation Coupling: A Structural Entropy–Guided Decoupled Framework and Benchmark for Infrared Enhancement
2026-05-23 15:40:49
383
原创 IJCV 2026 | 谁说多任务一定互相拖累?江南大学CRTFS让图像融合与显著性检测“双双起飞“!
A Color Information Driven Collaborative Training of Dual Task Parallel Network for Visible and Thermal Infrared Image Fusion and Saliency Object Detection
2026-05-14 23:25:29
602
原创 学术速递|2026年4月 arXiv 图像融合论文汇总(04.01–04.30)10 篇最新成果
以关键词【Image Fusion\ Infrared-Visible\ Infrared Image】在arXiv网站的文章标题中进行搜索,并将时间限定为04.01-04.30,共计检索10篇相关论文。 包含:CVPR*2、CVPRW*1、TPAMI*1。
2026-05-14 23:13:09
652
原创 TIP 2026 | LoRA启发的高效复合退化图像恢复网络
CDIR: LoRA-Inspired Attention for Efficient Composite Degradation Image Restoration | 本文提出了一种基于LoRA启发的注意力机制CDIR,用于高效解决复合退化图像恢复问题。针对传统方法难以应对多重退化(如雾、雨、雪等)混合场景的局限,作者设计了双分支架构:一支保持全分辨率处理特征,另一支通过降维提升效率。
2026-05-05 11:55:38
382
2
原创 CVPRW 2026 | 动态场景下多曝光图像融合
NTIRE 2026 The 3rd Restore Any Image Model (RAIM) Challenge: Multi-Exposure Image Fusion in Dynamic Scenes (Track 2) | 本文介绍了NTIRE 2026 RAIM挑战赛Track 2(动态场景多曝光图像融合)的赛事情况。该赛道针对HDR成像中的物体运动、手持抖动和光照变化等挑战,要求将不同曝光序列融合为高质量图像。比赛吸引了114支队伍参赛,共收到987次提交。
2026-05-05 11:48:28
296
原创 CVPR 2026 | Degradation-Robust Fusion: An Efficient Degradation-Aware Diffusion Framework
Degradation-Robust Fusion: An Efficient Degradation-Aware Diffusion Framework for Multimodal Image Fusion in Arbitrary Degradation Scenarios
2026-05-04 14:36:47
494
原创 CVPR 2026 | Bridging Human Evaluation to Infrared and Visible Image Fusion
本文提出了一种基于人类反馈的红外与可见光图像融合(IVIF)强化学习框架。通过构建首个大规模人类评价数据集(包含9,350张标注图像),设计双分支奖励模型量化人类视觉偏好,并采用Group Relative Policy Optimization(GRPO)进行区域级优化,使融合结果更符合人类感知。实验表明,该方法在热辐射保留、纹理细节和伪影控制等方面优于现有方法,为IVIF任务提供了新思路。相关代码已开源。
2026-05-04 14:29:25
574
原创 MAVFusion: Efficient Infrared and Visible Video Fusion via Motion-Aware Sparse Interaction
本文提出MAVFusion算法,通过运动感知稀疏交互实现高效的红外与可见光视频融合。该方法利用光流估计将视频帧划分为动态和静态区域,对动态区域采用稀疏强交互注意力,静态背景使用轻量级卷积模块,显著降低计算开销。核心模块包括运动感知特征对齐模块(抑制鬼影模糊)和Top-K稀疏注意力机制,将复杂度从O(N²)降至O(k·N)。实验显示,MAVFusion在480P分辨率下仅需123G FLOPs(为同类方法的5.7%),推理速度提升3.5倍,同时保持最优融合质量和时序一致性。该工作为视频融合领域提供了高效解决方
2026-04-23 15:25:03
94
原创 AAAI 2026 | A Hybrid Space Model for Misaligned Multi-modality Image Fusion
本文提出了一种新颖的双曲空间协同优化框架HMMF,用于解决多模态图像配准与融合中的错位问题。该方法创新性地将双曲空间层次建模能力与欧氏空间局部特征相结合:通过HCCLO模块在双曲空间实现层次语义对齐,利用TDFF模块动态融合双空间特征。实验表明,该方法在三个基准数据集上显著优于现有方法,有效消除了错位导致的伪影,同时保留了丰富的纹理细节。这项研究首次将双曲几何引入多模态图像处理领域,为复杂场景下的图像融合提供了新思路。
2026-04-23 15:21:17
467
原创 CVPR 2026 | Bridging Human Evaluation to Infrared and Visible Image Fusion
本文提出了一种基于人类反馈的红外与可见光图像融合(IVIF)强化学习框架。通过构建包含9350张标注图像的领域首个人类偏好数据集,设计双分支ViT奖励模型量化感知质量,并采用SAM分割辅助的GRPO策略优化融合网络。实验表明,该方法在保留热辐射和纹理细节的同时显著减少伪影,生成的融合结果更符合人类视觉偏好,在多个基准数据集上达到SOTA性能。这项工作突破了传统方法依赖手工指标的局限,实现了客观质量与主观感知的有效对齐。
2026-04-21 01:45:24
711
原创 Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval
本文提出DreamPRVR模型,通过"先想后聚"的认知范式改进部分相关视频检索任务。该模型创新性地采用扩散模型生成全局语义寄存器,首先通过文本监督的截断扩散过程"想象"出视频的全局上下文表示,再集中进行细粒度匹配。关键技术包括文本语义结构学习、基于概率变分采样的寄存器生成,以及寄存器增强的注意力机制。实验表明,该方法在三大基准数据集上全面超越现有技术,尤其在抑制局部噪声和查询歧义方面表现突出。可视化分析证实了模型能构建结构化的语义空间,实现更精准的跨模态对齐。这项工作
2026-04-21 01:36:45
383
原创 ChatGPT 桌面端“深度研究”功能不见了?别急,教你一个指令瞬间找回!
在 ChatGPT Desktop App 中,“深度研究(Deep Research)”功能有时会在更新后或配置变化中“消失”,本质上通常并非功能被移除,而是由于入口调整、实验功能开关关闭、账号权限变化或模型切换等原因导致。例如,当用户未选择支持深度研究的模型(如具备工具调用或研究代理能力的模型)、未开启相关 Beta 功能,或客户端版本较旧时,该入口可能不会显示。因此,这一问题的核心并不是“如何安装”,而是如何重新激活或找回入口(通过模型切换、设置开启或更新客户端)。
2026-04-05 10:54:18
312
原创 CVPR 2026 | Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning
这篇论文针对多模态学习中标注成本高的痛点,创新性地提出RL-MBA框架。核心突破在于用强化学习动态调整模态权重(AMCB)和难度感知采样(EFDA),让模型像"智能教练"般自主识别高价值样本。实验在三个数据集上均超越现有方法,尤其在VGGSound提升近2%。 评分:9分 理由:直击多模态主动学习的动态性盲区,双组件设计兼具理论严谨性与工程价值,但落地成本未充分论证。每一分标注预算都花在刀刃上的思路极具启发性。
2026-03-30 11:00:08
299
原创 CVPR 2026 | Beyond Strict Pairing: Arbitrarily Paired Training for High-Performance Image Fusion
红外融合突破:任意配对训练将N对数据扩展为N²关系,150对图像媲美万级样本效果。创新性强,解决数据获取难题,实验验证充分,评9分——小样本提升8.89%,工程化有待观察。
2026-03-30 10:58:24
491
原创 CVPR 2026 | MM-OVSeg: Multimodal Optical–SAR Fusion for Open-Vocabulary Segmentation in Remote Sense
本文提出MM-OVSeg框架,首次将光学与SAR图像融合应用于遥感开放词汇分割任务。针对云雾干扰导致光学信息缺失的难题,该方法通过跨模态统一(CMU)过程实现SAR特征与视觉基础模型的对齐,并利用双编码器融合(DEF)模块整合CLIP的全局语义和DINO的局部细节。实验表明,该框架在恶劣天气下对未知类别地物的分割精度显著提升,平均mIoU达51.7%,较现有方法提高6.1个百分点。
2026-03-24 10:10:17
552
原创 CVPR 2026 | FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration
本文提出了一种名为FusionRegister的新型跨模态图像配准方法,专门针对红外与可见光图像融合任务。该方法创新性地采用视觉先验引导的后配准范式,通过精准定位局部错位区域而非全局对齐,显著提升了配准效率。FusionRegister包含三个核心模块:错位定位算法、双向扭曲的位置配准策略和模态保留块,能够在保持原始融合质量的同时实现精确对齐。实验表明,该方法具有优异的鲁棒性和泛化能力,可无缝集成到各类主流融合架构中,在多项指标上均取得显著提升。这种"即插即用"的设计为多模态图像融合提供
2026-03-24 10:03:32
734
原创 4090显卡配置官方SegFormer运行环境(包含预训练权重下载、环境配置、代码修改、运行 | 验证 | 测试)
SegFormer语义分割模型环境配置指南 本文介绍了SegFormer模型的安装与配置过程。由于官方代码维护不足且预训练权重失效,需自行下载b1权重并配置环境。针对新设备兼容性问题,推荐使用torch 1.8.0+cu111和mmcv_full 1.2.7版本,并提供离线包下载地址。环境配置步骤包括创建conda环境、安装依赖库和编译SegFormer代码。最后简要提及模型训练命令,但测试验证部分内容待补充。该指南解决了在新设备上运行老版本模型的兼容性问题。
2026-03-16 18:04:48
375
原创 大道无情,万卷争锋:以凡人科研之躯,踏破高校“修仙”全境界!(科普篇)
【科普定位:国家自然科学奖、技术发明奖、科学技术进步奖】 这是凡人修仙能够获取的最高级别的“天道功德”!光发顶会顶刊还不够,你必须对人界苍生(国家战略与社会发展)做出极其卓越的实质性贡献。拿到国家三大奖的一等奖或二等奖,相当于为你塑成了不灭的功德金身。对于化神后期的顶尖大能来说,这是突破最后桎梏、引动“飞升真仙(院士)”雷劫的必备前置条件!
2026-03-15 16:48:50
387
原创 学术速递 | ICCV 2025 Accepted Papers For Image Fusion
ICCV 2025录用论文中关于图像融合的研究呈现出多元化发展趋势。中国高校与国际机构合作发表了11篇相关论文,聚焦红外-可见光融合、多曝光融合、医学多模态融合等方向,并涌现出扩散模型融合、语言引导融合等新趋势。代表性工作包括:巴塞罗那团队提出的基于Transformer的多光源白平衡校正方法,性能提升100%;哈工大与武大联合开发的TITA框架实现任务通用性与特异性的平衡;西北工大等机构提出的Hipandas方法联合处理高光谱图像去噪与超分辨率;清华团队则研发了文本引导的弱监督可控融合模型。这些研究显示图
2026-03-15 16:45:22
725
原创 CVPR 2026 | VideoFusion:220段15万帧红外与可见光对齐视频!武大提出视频融合新基准!
本文提出VideoFusion,一种时空协同网络用于红外-可见光视频融合。作者首先构建了包含220段视频、15万帧的M3SVD数据集,覆盖多种复杂场景。该方法通过跨模态差异增强模块提取互补特征,并利用双向时序注意力机制建模时间动态信息,有效解决了传统图像融合方法在视频任务中的闪烁问题。实验表明,VideoFusion在多模态视频融合中显著优于现有方法,实现了稳定连贯的融合效果。代码和数据集已开源。
2026-03-08 13:27:20
721
原创 学术速递|2026年2月 arXiv 图像融合论文汇总(02.01–02.28)
2月arXiv图像融合研究精选 本期聚焦8篇多模态图像融合论文,涵盖红外-可见光、SAR-光学等多领域。亮点包括: MagicFuse(最佳论文)实现单图像视觉与语义强化融合; 零样本跨域融合、空间-频率Mamba建模等创新方法; 事件相机辅助视频重建、超光谱波段无关融合等技术突破; 大规模SAR-光学对齐数据集推动跨模态研究。研究呈现从传统特征融合向语义增强、跨域自适应等前沿方向演进趋势。
2026-03-08 12:13:43
1515
原创 学术速递|2026年1月 arXiv 图像融合论文汇总(01.01–01.31)
学术速递|2026年1月 arXiv 图像融合论文汇总(01.01–01.31)
2026-02-06 01:22:23
717
原创 ICLR 2026|图像融合方向录用情况一览
ICLR 2026图像融合领域投稿全军覆没。会议检索显示4篇相关论文均未被接收,涉及VLM Agent、扩散模型、特征解耦和恶劣天气建模等前沿方向。这些工作包括《FuseAgent》《Dig2DIG》等创新研究,虽展现技术突破但未能入选。该结果反映出该领域研究仍面临挑战,期待未来能有更成熟的研究成果问世。
2026-02-06 01:13:53
434
原创 《融合之智:基于深度学习的图像融合》 | 如何入门图像融合研究?新人必读!作者:张星辰创作之书
作者张星辰创作的《融合之智:基于深度学习的图像融合》一书,作为最好入门的图像融合书!新人必读!
2026-01-26 23:15:44
889
原创 IEEE Transactions 系列期刊大全:影响因子、中科院分区、自引率、发文量一站式起底!投稿必看,建议永久收藏!
IEEE Transactions系列期刊共有115本,其中影响因子最高的前20本期刊涵盖多个领域。TPAMI以18.6的影响因子位居榜首,其次是TIV(14.3)、TIP(13.7)等。这些数据来源于IEEE官网和LetPub统计,包含影响因子、CiteScore、分区等指标。部分高影响力期刊如TPAMI专注于模式分析与机器学习,TIV关注智能车辆技术,TIP则聚焦图像处理领域。值得注意的是,这些期刊的自引率差异较大,从TPAMI的3.2%到TCE的52.3%不等,年发文量也从128篇到1305篇不等。
2026-01-26 22:10:50
3351
原创 一键搬运自己的CSDN博客同步到任意平台
本文介绍了一款实用的"xx同步助手"插件,可帮助用户快速将文章跨平台同步。该插件支持从CSDN等平台提取文章内容,一键同步至其他平台(如xx平台),大幅提升多平台运营效率。文章详细说明了插件的下载安装方法(目前仅支持Edge浏览器)及使用步骤:添加账号、提取文章、选择同步平台等。虽然该插件自2022年起停止维护,但截至2026年仍可正常使用。通过这款工具,运营者可以轻松实现内容的多平台分发,避免繁琐的手动操作。
2026-01-06 16:52:13
265
1
原创 关于CSDN平台的优劣势分析与改进思考
本文分析了某知识分享平台的优缺点。优势包括:操作简便、优质创作者聚集、用户反馈及时、资源下载便捷、客服响应快速、创作体验良好等。劣势则体现在:内容质量参差不齐、收费机制混乱、抄袭问题严重、审核机制不透明、账号无故封禁、页面广告干扰、创作者收益微薄等方面。建议平台应完善收益机制,尊重作者权益,加强内容审核,改进编辑器功能,并建立更人性化的账号管理机制。
2025-12-29 15:19:04
518
mmcv-2.2.0-cp39-cp39-manylinux1-x86-64.whl mmcv离线安装包
2025-11-10
flash-attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp310-cp310-linux-x86-64.whl
2025-06-27
Misaligned Visible-Thermal Object Detection...论文原文
2024-09-14
Havard多模态医学图像融合数据集
2024-04-12
MFFW数据集(13对图像)MFFW: A new dataset for multi-focus image fusion
2024-03-13
自动化学报格式 Overleaf 在线使用 【2023最新教程】
2023-10-26
计算复杂性理论与密码技术的关系
2023-10-07
图像融合M3FD数据集
2023-09-08
图像融合RoadScene数据集和TNO数据集
2023-07-15
图像融合MSRS数据集
2023-07-15
Mask R-CNN学习资料(全)
2022-09-27
系统集成项目管理工程师必备知识点总结
2022-07-25
Mask R-CNN预训练权重
2022-05-26
Zotero参考文献样式
2022-04-25
第八次组会PPT_Vision in Transformer
2022-04-23
Vision in Transformer全文翻译
2022-04-14
Transform原文及综述和ViT原文
2022-02-17
Herlev数据集(PAP-SEAR (DTU/HERLEV) 数据库和相关研究)
2021-07-28
EfficientNet
2022-01-05
数字图像处理第五章_图像复原_噪声去除.zip
2021-10-22
莺尾花数据集_牛津花卉数据集_花卉数据集
2021-07-04
上市公司风险分类评估问题
2021-07-17
深度学习运行代码直接中断
2024-07-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅