摘自论文 CASIA IMAGE TAMPERING DETECTION EVALUATION DATABASE
2013年发表的论文。
CASIA 数据集是Institute of Automation, Chinese Academy of Sciences 国人所作,中科院自动化研究所。
以下内容是瞎猜的
Chinese Academy of Sciences , 估计CAS是这个的缩写。
而这个IA可能是这个。不明原因,iA这个词就有只能自动的含义。
所以就是CASIA = CAS + IA=中科院 自动化
就图像篡改数据集而言,是相对其他任务更加容易获得的,单张篡改图像的制作难度很低,但是多样的篡改数据,适合训练的篡改数据难以制作。但是制作数据集的难度还是比较低的。所以会有不少人自己做数据集训练。
CASIA 和Columbia
CASIA v2.0
CASIA v1.0
交叉验证
比较Columbia 优势
- CASIA 比Columbia的篡改质量明显高,标注也比较准确。
- Columbia对于边缘的标注有明显的像素偏差,做篡改边缘检测的最好不要用它。
- Columbia被人眼识别篡改的概率是100%,说明篡改的质量低,不符合实际的应用场景。
就有一些论文,喜欢在Columbia里面测试,还说什么act very well in Columbia,结果展示还只放这个数据集的图。这个测试其实意义不大,如果人一眼就看出来,那为什么还要机器呢。
数据集特点
- 所有的图像都是人为的通过PS制作的,要求符合人眼的习惯。
- 可以是splicing或者copy-move 的篡改,即可以是同图,或者不同图
- 裁剪后的图像区域可以通过缩放、旋转或其他失真操作,然后粘贴生成拼接图像。在生成拼接图像后,可以使用像模糊这样的后期处理。模糊/过滤可以沿着篡改区域定制或生成图像中的任何其他地方应用
- 包含不同的篡改面积
- 定义边缘是随机的,合理的。并非是固定的规则几何形状。
- 包含一些纹理的混淆项,对检测而言是困难样本
数据集链接
论文中数据集链接,已测试,无法连接,像是外网网址。
The databases are now availiable online at http://forensics.idealtest.org/
改用其他途径,可以轻松搜索到