追踪计算机视觉领域的最新热点,是把握技术发展方向、推动创新落地的关键。本期IJCV的论文聚焦生成式AI、多模态理解、轻量化模型和安全防御等前沿方向。分析这些热点,不仅能洞察最新技术趋势,更能为科研选题和工程实践提供重要参考。
本文作者为邓镝,审核为韩煦。
一、期刊介绍
《国际计算机视觉杂志》(International Journal of Computer Vision)为月刊,简称为IJCV,每年出版12期,致力于发表高质量、原创性的学术论文,以推动计算机视觉科学与工程的蓬勃发展。期刊影响因子11.6(2023),5年期刊影响因子14.5(2023)。表1展示了IJCV从2019至2023年的影响因子情况。
表 1 IJCV 2019至2023历年影响因子
年度 | 文章数/年 | IF |
2023 | 198 | 11.6 |
2022 | 187 | 19.5 |
2021 | 130 | 13.3 |
2020 | 187 | 7.4 |
2019 | 90 | 5.7 |
官方主页:https://link.springer.com/journal/11263
二、热点分析
表2列出了在本次会议中,被录用的38篇论文标题中出现频率最高的20个主题词。图1展示了基于IJCV研究热点生成的词云图,涵盖了语义分割、扩散模型、自适应等多个研究方向。投稿的论文主题反映出本期研究热点集中在以下几个方面。
1.视觉感知与分割
(高频词:segment、 segmentation、 object,分别出现5次、5次、3次):核心方向包括图像/视频分割、语义分割、目标检测,分割技术仍然是计算机视觉的基础任务。
相关论文:
Audio-Visual Segmentation with Semantics
论文链接:
https://link.springer.com/article/10.1007/s11263-024-02261-x
2.生成模型与数据增强
(高频词:diffusion model、 generation,分别出现4次、2次):核心方向包括扩散模型、跨模态生成(例如文生图),扩散模型从理论向应用延伸,如视频生成、数据增强,本期论文还涉及到了隐私保护生成(Anti-Fake Vaccine)。
相关论文:
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
论文链接:
https://link.springer.com/article/10.1007/s11263-024-02223-3
3.高效学习与自适应优化
(高频词:efficient、 adaptive、 weakly supervised,分别出现3次、3次、2次):核心方向包括轻量化模型、自适应算法,研究热点从追求模型精度转向效率与性能之间的平衡关系
相关论文:
EfficientDeRain+: Learning Uncertainty-Aware Filtering via RainMix Augmentation for High-Efficiency Deraining
论文链接:
https://link.springer.com/article/10.1007/s11263-024-02281-7
表2 录用论文标题中出现的高频主题词
高频主题 | 翻译 | 出现次数 |
segment | 分割 | 5 |
segmentation | 分割 | 5 |
visual | 视觉 | 5 |
image | 图像 | 4 |
video | 视频 | 4 |
detection | 检测 | 4 |
diffusion model | 扩散模型 | 4 |
adaptive | 自适应 | 3 |
object | 目标 | 3 |
efficient | 高效 | 3 |
driving | 驾驶 | 2 |
transformer | Transformer | 2 |
generation | 生成 | 2 |
vision | 视觉 | 2 |
weakly supervised | 弱监督 | 2 |
3d | 3D | 2 |
detecting | 检测 | 1 |
adversarial | 对抗 | 1 |
autonomous driving | 自动驾驶 | 1 |
图1 研究热点词云图
三、本期论文列表
表3总结了本期被IJCV录用的论文,并给出了论文的主题,供读者参考。读者可以从表3中快速找到自己感兴趣的论文,然后到期刊官网下载全文进行学习。
表3 本期IJCV论文
题目 | 主题 |
Group-Based Distinctive Image Captioning with Memory Difference Encoding and Attention | 一种基于组内差异对比的图像描述生成方法,在保持描述准确性的同时显著提升图像描述的独特性,解决现有模型在区分相似图像时描述泛化的问题。 |
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation | 研究提出MosaicFusion,一种基于扩散模型的无训练数据增强方法,无需标签监督即可为大规模词汇实例分割生成合成标注数据,显著提升长尾及开放词汇场景下的分割模型性能。 |
Using Unreliable Pseudo-Labels for Label-Efficient Semantic Segmentation | 研究创新性地利用预测不可靠像素作为负样本,通过动态熵值阈值实现标签高效语义分割,显著提升模型性能。 |
DLRA-Net: Deep Local Residual Attention Network with Contextual Refinement for Spectral Super-Resolution | 研究提出一种新型深度伪造检测框架,在六大基准测试中显著优于现有方法,有效提升了跨伪造技术的泛化检测能力。 |
Edge-Oriented Adversarial Attack for Deep Gait Recognition | 研究针对步态识别系统提出一种基于边缘区域的对抗攻击方法,在实验室和真实场景数据集上验证了有效性,揭示了步态识别系统安全防护研究的紧迫性。 |
4Seasons: Benchmarking Visual SLAM and Long-Term Localization for Autonomous Driving in Challenging Conditions | 研究团队基于大规模4Seasons数据集提出首个面向自动驾驶的跨季节视觉SLAM与长期定位基准测试,为复杂环境下的自动驾驶定位技术发展提供了重要参考。 |
Towards Ultra High-Speed Hyperspectral Imaging by Integrating Compressive and Neuromorphic Sampling | 研究创新性地融合压缩感知与神经形态采样技术,提出一种新型高速高光谱成像系统,首次实现了30个光谱通道、20,000帧/秒的高速高光谱视频采集,实验验证了该系统的优越性能。 |
Learning Accurate Low-bit Quantization towards Efficient Computational Imaging | 研究创新性地提出可微分量化搜索(DQS)方法和信息增强模块(IBM),在图像增强、去噪等多种任务中显著优于现有量化方法,同时展现出优异的泛化能力。 |
Audio-Visual Segmentation with Semantics | 研究团队提出视听分割(AVS)任务并构建首个基准数据集AVSBench,为建立音频与像素级视觉语义的关联提供了新思路。 |
Blind Multimodal Quality Assessment of Low-Light Images | 研究提出盲式多模态低光图像质量评估方法(BMQA),在提升评估精度的同时验证了其在单模态Dark-4K数据库上的优异泛化性能。 |
Towards Data-Centric Face Anti-spoofing: Improving Cross-Domain Generalization via Physics-Based Data Synthesis | 研究从数据角度出发,提出针对人脸防伪的专用数据增强方法(FAS-Aug)和欺骗攻击风险均衡策略(SARE),显著提升了跨域泛化性能,结合视觉Transformer取得了当前最优的防伪效果。 |
Facial Action Unit Detection by Adaptively Constraining Self-Attention and Causally Deconfounding Sample | 研究提出一种新颖的面部动作单元检测框架,多个基准测试中取得最优性能,有效解决了传统方法中全局注意力干扰和AU特异性因果特征忽略的问题。 |
On the Generalization and Causal Explanation in Self-Supervised Learning | 研究提出解记忆机制(UMM),有效缓解自监督学习中的过拟合问题,实验表明该方法能显著提升多种下游任务的泛化性能。 |
Interweaving Insights: High-Order Feature Interaction for Fine-Grained Visual Recognition | 研究采用双图神经网络架构结合APPNP消息传递机制实现细粒度视觉分类,在保持模型轻量化的同时,在多个基准数据集上达到最优性能。 |
AgMTR: Agent Mining Transformer for Few-Shot Segmentation in Remote Sensing | 研究提出基于智能体挖掘的Transformer方法(Agent Mining Transformer),解决了遥感场景中少样本分割面临的类内差异大和背景杂乱导致的像素级语义模糊问题。 |
CogCartoon: Towards Practical Story Visualization | 研究提出基于预训练扩散模型的CogCartoon方法,在降低数据依赖的同时实现灵活的故事可视化,在长故事和写实风格生成任务中展现显著优势。 |
Learning Text-to-Video Retrieval from Image Captioning | 研究提出一种利用无标注视频进行文本-视频检索训练的新方法,在三大基准测试中超越CLIP零样本基线,实现了无人工标注成本下的跨模态检索性能提升。 |
Neural Vector Fields for Implicit Surface Representation and Inference | 研究提出一种新型神经隐式场表示方法——向量场,在数据集上展现出优于现有方法的建模精度。 |
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation | 研究提出混合像素与潜空间模型的文本生成视频框架Show-1,在保持72G显存模型同等质量的同时将推理显存降至15G,在多项基准测试中达到最优。 |
StyleAdapter: A Unified Stylized Image Generation Model | 研究提出StyleAdapter框架,无需逐风格微调即可生成符合文本内容与参考风格的高质量图像,实验证明其性能优于现有技术。 |
Sample Correlation for Fingerprinting Deep Face Recognition | 研究提出基于样本相关性(SAC)的新型模型窃取检测方法,在AUC和F1分数上优于现有方案,并验证了在通用物体识别任务中的优越性。 |
Dynamic Attention Vision-Language Transformer Network for Person Re-identification | 研究提出一种动态注意力视觉-语言Transformer网络,解决了多模态行人重识别中特征融合偏差和预训练域差异问题。 |
A Memory-Assisted Knowledge Transferring Framework with Curriculum Anticipation for Weakly Supervised Online Activity Detection | 研究提出一种基于知识蒸馏的弱监督在线活动检测方法,在三个公开数据集上验证了方法的优越性。 |
Improving 3D Finger Traits Recognition via Generalizable Neural Rendering | 研究提出FingerNeRF方法,在三个数据集上实现4.37%-8.12%的等错误率,验证了隐式方法在3D指部生物特征识别中的优越性。 |
Basis Restricted Elastic Shape Analysis on the Space of Unregistered Surfaces | 研究提出一种基于弹性黎曼度量的新型曲面分析框架,并在人体、人脸和手部扫描数据上验证了有效性。 |
Anti-Fake Vaccine: Safeguarding Privacy Against Face Swapping via Visual-Semantic Dual Degradation | 本文提出Anti-Fake Vaccine框架,生成可对抗多种换脸模型的共享对抗扰动,在CelebA-HQ和FFHQ数据集上展现出优异的跨模型泛化防御能力。 |
APPTracker+: Displacement Uncertainty for Occlusion Handling in Low-Frame-Rate Multiple Object Tracking | 研究提出APPTracker+方法,有效解决了低帧率视频中目标快速变化导致的跟踪难题,在多种低帧率场景下展现出优异的身份保持能力。 |
Achieving Procedure-Aware Instructional Video Correlation Learning Under Weak Supervision from a Collaborative Perspective | 研究提出协作式程序对齐框架(CPA),在免步骤标注条件下实现教学视频的关联学习,在四项任务中验证了其优越性能。 |
Few Annotated Pixels and Point Cloud Based Weakly Supervised Semantic Segmentation of Driving Scenes | 研究提出协作式程序对齐框架(CPA),在免步骤标注条件下实现教学视频的关联学习,在序列验证等四项任务中验证了其优越性能。 |
EfficientDeRain+: Learning Uncertainty-Aware Filtering via RainMix Augmentation for High-Efficiency Deraining | 研究提出EfDeRain+高效去雨方法,在数据集上实现74倍加速(6.3ms处理1080p图像)且质量更优,突破传统方法对雨纹模型的假设限制。 |
Day2Dark: Pseudo-Supervised Activity Recognition Beyond Silent Daylight | 研究提出一种黑暗自适应视听活动识别方法,在数据集上优于图像增强和域适应方法,并能提升遮挡局部黑暗的鲁棒性。 |
Rethinking Contemporary Deep Learning Techniques for Error Correction in Biometric Data | 研究提出U-Sketch通用生物特征纠错方法,解决了现有深度学习解码器在安全生物识别中的局限性。 |
Adaptive Middle Modality Alignment Learning for Visible-Infrared Person Re-identification | 文章提出自适应中间模态对齐学习(AMML)方法,在三个跨模态行人重识别数据集上达到最优性能。 |
MVTN: Learning Multi-view Transformations for 3D Understanding | 研究提出多视角变换网络(MVTN),在ModelNet40等基准测试中达到最优性能。 |
Diagnosing Human-Object Interaction Detectors | 研究针对人-物交互(HOI)检测任务提出诊断工具箱,发现当前最优模型RLIPv2的优势主要来自多标签交互分类精度的显著提升。 |
Multi-source-free Domain Adaptive Object Detection | 研究提出"分治-聚合"对比适应框架(DACA),在无需源数据和目标标注的情况下实现跨域检测性能提升。 |
Continual Face Forgery Detection via Historical Distribution Preserving | 研究提出历史分布保持(HDP)框架,在持续人脸伪造检测(CFFD)新任务中显著优于现有方法,并构建了包含三种评估协议的新基准。 |