NeurlPS 2024 | IMDL-BenCo:图像篡改检测与定位领域的首个基准测试标准和模块化代码库...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

19c94b4f28980a8360b2d65849969738.png

IMDL-BenCo:图像篡改检测与定位(IMDL)领域的首个基准测试标准和模块化代码库

收录NeurlPS24 spotlight

单位:四川大学(吕建成团队),澳门大学

主页:https://scu-zjz.github.io/IMDLBenCo-doc/

代码:

https://github.com/scu-zjz/IMDLBenCo

论文:https://arxiv.org/abs/2406.10580

背景简介:

图像篡改检测与定位(IMDL)问题关注于提取图像的细节特征,一直都面临着预处理不统一,训练数据集不统一,评价指标不统一,模型不开源,训练代码不开源等等问题。目前IMDL领域尚缺乏一个统一的模型测试与评价基准,严重影响了模型之间的公平比较,阻碍了相关研究的进展。         

研究内容:

IMDL-BenCo构建了一套规范、统一的模型预处理、训练和测试评价标准,复现了8个最先进的基线模型,以及建立了一个模块化的代码框架。这套代码框架允许用户最大限度地定制模型或修改各类基础模型,并基于统一的测试标准来评价各种模型性能,现实了各个模型间的公平比较,也可以让研究者基于该框架探索各类最适合篡改检测任务的骨干网络结构、底层特征提取器、评价指标等因素,可期推进整个图像篡改检测领域健康、公平的快速可持续发展。

IMDL-BenCo代码框架的设计概览图如下所示:   

b9d6116fce4460f4cfb3fd987affb36e.png

IMDL-BenCo代码框架         

主要的组件包含:

1. 负责引入数据并进行预处理的Dataloader

Dataloader负责处理数据集的组织、增强和转换。它通过转化脚本将原始数据集转化为一系列JSON文件,便于后续的训练和评估操作。由于IMDL数据集通常需要人类专家手动标注,处理成本极高,数据集规模往往较小,难以满足现代大型模型的需求,因此数据增强变得至关重要。Data Loader设计了特定于IMDL的变换,如简单的修复和复制移动变换,能有效提升模型性能。同时,它还包含了常见的视觉变换,如翻转、旋转和随机亮度调整,这些变换由Albumentations库实现。对于某些模型额外需求,如JPEG格式的元数据,Data Loader通过回调函数从RGB域中获取。最后,Shape Transforms确保输入图像尺寸的一致性,包括零填充、裁剪和缩放,使模型能够接受统一大小的输入。

2. 管理全部模型,特征提取器的Model Zoo

Model Zoo包含了一系列精心挑选的模型,包括8个最新的IMDL基线模型和4个基于现有视觉主干构建的模型,以及5个常用的特征提取模块。这些模型覆盖了IMDL任务的各种需求,从模型结构到损失函数设计均在Model Zoo中独立封装,使得用户可以灵活选择和组合不同的模型组件,满足特定的IMDL研究需求。Model Zoo的模块化设计允许用户轻松地定制模型架构,同时保持代码的高效和可复用性,从而平衡了模型的个性化与编码效率。   

3. 基于GPU加速的Evaluator,用于计算评价指标

Evaluators用于评估Image Manipulation Detection & Localization(IMDL)模型的性能。在以往的研究中,评测标准的不一致性导致了评测结果的偏差和不公平比较,影响了IMDL领域模型评估的准确性和可信度。为了解决这些问题,Evaluators被设计为GPU加速的评估工具,以提高评估效率和可靠性。Evaluators在IMDL-BenCo中实现了15种GPU加速的评价指标,包括图像级别(detection)的F1分数、AUC(Area Under Curve)、准确率,以及像素级别(localization)的F1分数、AUC、准确率和交并比(Intersection over Union)。这些指标可以自动适应数据加载器中的形状变换,确保评估结果的一致性和准确性。此外,Evaluators还实现了诸如inverse-F1和permute-F1这样的衍生算法,以检验它们是否会产生过高的公平性估计。

除基准测试和代码库之外,研究团队利用IMDL-BenCo的模型定制能力,首先将Model Zoo中实现的骨干模型与不同特征提取模块相结合,探索了各特征提取器的表现及其与骨干模型的兼容性,得到了最适合IMDL任务的骨干网络和底层特征提取器。其次,研究团队将各个基测准数据集利用Evaluator进行测试,观察了各个基准测试数据集中的存在的数据分布偏差情况,并针对性提出了数据集去偏修改方案。最后,研究团队探索了Evaluator中所包含的各类指标对模型性能的反应程度,对被广泛使用的F1和AUC值提出了修改意见。         

研究总结:

简而言之:

IMDL-BenCo具有以下三个贡献:   

1. 组件标准化与模型管道优化:IMDL-BenCo将IMDL框架分解成可复用的标准化组件,改进了模型构建流程,提升了编码效率和定制灵活性。

2. 全面的模型实现与集成:IMDL-BenCo完全实现了或集成了八个最先进IMDL模型的训练代码,建立了综合性的IMDL基准测试方法。

3. 深入地模型分析:基于建立的基准和代码库,IMDL-BenCo进行了深入分析,为IMDL模型架构、数据集特性和评估标准提供了新视角。

IMDL-BenCo代表了IMDL领域评价标准的重要进步和基础研究领域的最新进展,为未来的模型研究和技术突破提供了坚实的基础。相关代码和操作文档、使用教程已完全开源在GitHub上(https://github.com/scu-zjz/IMDLBenCo)。该代码有着完善的更新计划,仓库将被长期维护,欢迎全球研究者使用和提出改进意见。

IMDL-BenCo的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值