今日有感-对研究问题范围的限定与算法效果的关系

最新推荐文章于 2024-01-01 11:30:29 发布

借山翁

最新推荐文章于 2024-01-01 11:30:29 发布

阅读量710

点赞数

本文链接：https://blog.csdn.net/u012805923/article/details/24135825

版权

在开始做研究不到半年的时间里，一直觉得那些牛逼的算法很神秘，也一直问自己为什么他们的算法那么牛逼？

这一周在帮boss审一篇TIFS关于JPEG double compression的稿子，内容不便透露

因为要审稿，所以还是大概了解一下double compression的相关工作。一开始看的头大，因为很多问题没有概念，之后与隔壁做过该方向的博士讨论后发现虽然同为double compression，但是不同研究者切入的角度都各不相同，并且发现越是效果好的算法越是对问题的研究范围进行了很好的限定对问题的刻画越是简单（简单不等于模糊，简单的原因多种多样，但是都是合理的），也就是说在研究的一开始大家不会去关心那些受A,B,C...多个因素影响的问题，而是针对其中某一个因素，例如A，进行相关的算法研究。

具体的来讲，对于double compression这个问题，篡改涉及的因素有：是否存在网格非对齐的篡改区域。是否是经过一次压缩。是否已知二次量化的量化表等。

例如，Luo在一篇文章中针对非对齐拼接对块效应的影响，这时候他考虑的问题不涉及量化表，仅仅针对是否对其进行研究，问题明确效果良好（当然，这个良好也是相对的，在限定范围内的）

再例如，Luo在TIFS2010上发表的关于JPEG error的分析一文，该文章最大的先验知识就是研究的图片要不然是raw的，要不就是一次压缩的。而文章完成的三个功能分别是，1）检测BMP图是否是raw或者经过一次压缩，2）如果是有压缩的，那么对每个d(i,j)对应的Q(i,j)是多少。3）如何在已知一次量化矩阵可能的范围的前提下，估计第一次量化矩阵的值。

当然，文章最后的结果是非常好的，但是仔细想想就会问，你拿到一张BMP图你怎么就知道它只是raw和single compression其中之一了，如果他是double compres，triple compression那你这个方法还能行吗？等等等....Luo等人做了文中的假设，或许就是别人思考问题的高明之处了：问题适当的简化，这样的简化它满足几个条件：1）方便建模以及理论分析，2）方便实验的进行，3）一般获取的特征与理论分析有着密切的关系，4）虽然简化了，但是这样的情景是其它复杂问题的基础，是可扩展可借鉴的。

反过来举个反例，研究复合问题就比较蛋疼了，比如你要盲的精确的知道BMP经历了多少次压缩，那光是对于三次压缩可能的量化因子大小关系就有3*2=6种（不算相等的情况），而双压缩则只有两种（算上相等是3种），并且可以细化为能否为整除关系。研究复合问题给人的感觉就是，虽然三次压缩这样的问题本身是存在的有意义的，但是研究它的价值和意义完全不及研究二次压缩，即使上述的研究者研究的二次压缩检测算法设定了某些先验信息。

接下来是recaptured image 的问题，其实现在我来看这个问题，也就是复合问题了，说到recaptured image 的检测，最近我也大概浏览了一些source identification的文。早些年2000-2009期间对于设备identification的研究是层出不穷的，要不然是CCD上面的坏点，要不然是sensor noise，要不然是CFA，他们的理论分析是有针对性的，当然有几篇TIFS上面的identification的算法是靠相关特征的分类做的，我个人觉得这种方法有偷懒之嫌（不过在forensics里面这样类型的方法太多了）。相比之下，recaptured image的问题不仅和拍摄设备有关，还和呈现设备（display device）或者显示媒介有关，也就是变成了一个复合问题了，就比较尴尬。

这个方向早期的问题是针对high resolution来做也是有道理的，相当于将拍摄设备的影响降到的最低（例如在high resolution的情况下，什么有损压缩效应啦就没有了，什么the micro-structure on the printing paper这种东西才能显现出来）也就是当你的capture process能够较好的保留display deveice（纸张或者显示频）的特性时当然可以特别的对其进行建模而不怎么考虑拍摄设备的问题，例如以前文章里面提到的散射分量和镜面反射分量，以及扯淡的the micro-structure on the printing paper，纸当然是漫反射多了，而对于人的皮肤（那么多油脂）当然镜面反射会相应的增加，这是在high resolution的情况下会有较好的效果（早期的几篇文都是在这个前提建设下做的）。再去看看H.Cao在2010年ICASSP上面发的那篇LCD recaptured 的那篇文，里面也是用的相机拍摄的，相机哦亲，是相机哦！！！里面的量化表的量化步长那个小啊，肯定不存在手机那么蛋疼的块效应！原文是这样描述拍摄设备的：9 other cameras from 5 different brands including Canon, Casio, Lumix, Nikon and Sony.你说这些相机拍出块效应谁敢去消费啊= =。所以前期的文章就这么愉快的在display device上面下功夫了，而且还是基于microtexture更多。

所以之后T.T.Ng应该也是发现这个问题了，出了一篇《SINGLE-VIEW RECAPTURED IMAGE DETECTION BASED ON PHYSICS-BASED FEATURES》，显然是针对microtexture提出来的，拍摄设备是手机，原文实验部分这么说：We group the five distinct phone cameras into the categories of front-facing cameras and back-facing cameras. 但文中的实验结果对于Dataset: images are cropped at the central quarter的检测效果并不好。2011年T.TNg出的那个重拍库用之前的检测手段效果也不好。

写到这个我感觉两个事情清楚了，第一之前的问题分了两派，一派是基于统计的（需要high resolution），一派是基于物理特征的（对分辨率神马的没有要求）。将两者结合一下下何乐而不为呢？所以孙老师的weber‘s law我觉得可以尝试。color cast还是有它的应用场景的（如果我能证明一般的纸张都存在色偏）。

所以这里想想，其实帧内篡改还是可以做的，只要问题界定的好，例如都是用一帧的一个区域进行连续的复制