图像复原-去伪存真【VALSE Webinar】Panel实录

最新推荐文章于 2022-10-26 09:22:56 发布

深度学习大讲堂

最新推荐文章于 2022-10-26 09:22:56 发布

阅读量1.4k

点赞数 1

文章标签：网络大数据算法编程语言 python

原文链接：http://valser.org/

版权

编者按：近年来，深度学习方法被广泛用于解决图像复原与增强问题，并在多个复原问题上取得了巨大成功。同时，图像复原在实际落地中，又会遇到哪些挑战呢？未来又会遇到什么新的探索呢？VALSE Webinar 2020-15期邀请顾舒航（悉尼大学）、万人杰（南洋理工大学）、潘金山（南京理工大学）、董超（中国科学院深圳先进技术研究院）、朱磊（香港中文大学）针对“图像复原-去伪存真” 开展了深入探讨，本文是该次讨论的文字实录，共计5个议题。文字整理：班瀚文。

议题1

如何看待NAS在图像复原问题的应用？未来是否可能取代手工设计网络？

潘金山：关于NAS，最近也有相关工作说明了NAS在图像超分辨率或者是图像复原问题上的有效性。NAS虽然可以避免手动设计网络，但是同时我们也需要考虑一些问题，比如搜索空间如何定义，最终构建的网络为什么能解决这些问题，背后原理是什么。另外图像复原问题不同于一些高层视觉任务，在这些问题当中，比如某些退化问题是有对应的成像原理和模型的。我个人觉得从问题的原理出发，比如结合这些成像原理设计深度模型，也是一种可行的方式。

万人杰：现在NAS目前在图像复原问题中的应用并不是特别的广泛，能够找到的paper也不是特别多，虽然主流还是手工设计网络，但是如果NAS发展下去的话，最极端的情况可能就是对于目前手工设计网络的流派，形成某种降维打击。到最后说不定NAS会像当年deep learning之于传统的handcrafted prior那样成为某种主流，因为当年handcrafted prior也是包含了人类巧思的设计，但是最后在deep learning所提取出来的feature面前，很多以前的handcrafted prior也是败下阵来。如果后面的验证发现NAS效果不错的话，那么某种情况下，手动设计网络说不定就会变成以前的handcrafted prior，然后NAS就变成了若干年前的deep learning，最后有可能再下一辈的研究学者，他们考虑的就是和我们现在所考虑的不一样的问题了。

董超：我从另外一个角度来说一下这个问题。首先，NAS跟我们普通的设计网络训练有一个很大的区别就是特别消耗计算资源，它需要非常多的GPU卡来跑，而且需要很多时间。到目前为止，NAS在学术界用的比较少，但是在工业界可能更适合做这方面的研究和探索。因为一个普通的研究生或者是博士生，很难拿到几十块甚至是上百块GPU的资源来做这件事情，所以短期之内NAS可能在工业界应用的会多一些，学术界可能会少一些。其次，即便未来NAS有可能会取代手工设计网络，但是手工设计网络就像早年的传统方法一样，是一个优秀的研究者必须要掌握的基础知识。如果我们失去了传统算法或者手工设计的基础，那么我们在做深度学习的时候就失去了根基。相同的，如果我们失去了手工设计网络的能力，可能也会失去做一个好的NAS的根基，谢谢。

顾舒航：虽然我不是特别了解NAS，但是看过一些paper，我认为近期内，现在的NAS方法解决图像复原问题应该还存在一些局限性。主要的问题还是只能搜block。只搜索block的话，可能对super resolution task有一些用，主要因为super-resolution主要都在lower resolution上面做，更多的是考验网络的非线性映射能力，所以block研究的好，非线性能力提高后，能够提升super resolution task上的效果。对于其他一些图像增强问题，例如图像复原或者去噪，需要比较大的感受野，那么更重要的是对网络的全局架构进行合理的设计。现在的NAS，大家更多的关注于怎么搜block，但是block对于很多low-level vision task问题来说，不是最关键的核心，大架构可能更重要。什么时候NAS能后搜索得到类似于Unet这样的结构，可能才能得到比较好的效果。这方面的工作目前似乎不是很多，最近刚刚出现一些对网络整体架构进行搜索的解决方案。

朱磊：大家都知道，NAS可能是用来做AutoML的一个最好的方式，但是从问题定义上来说，比如我们现在在不同的图像复原问题需要设计不同的网络，训练不同的参数。如果真正能做到自动的去找到最优参数的话，肯定是很好的。但是目前在图像复原上可能大家更关注怎么在真实图像上做的更好。

议题2

图像复原领域真正想要的评价指标应该是什么样的？它与现有的评价指标有什么差异？

顾舒航：我认为是要更加符合人眼的视觉质量，IQA是一个研究领域，一方面是看复原的图像用于什么场景，如果是用于后续问题的处理，类似于video coding的一些应用，只要不影响后续问题的处理，就比较好。另一方面，如果直接是用于娱乐或者是拍照片那样的话，大家更关注的是更符合人眼感知的视觉质量。

潘金山：我跟顾舒航老师的观点比较一致，最理想的情况就是客观评价指标和主观视觉感知相统一。现有的评价指标，跟主观感知相比还有一定的差距。比如在图像去模糊的问题当中，我们恢复出来的图像，虽然把模糊去掉了，但是细节没有了。在这种情况下，可能PSNR值还比较高。另外我认为指标的定义还跟某些具体的任务有一定的关系。比如在deblurring问题中，我们可能更关心恢复出来的图像到底清不清楚。而在其他的增强问题当中，比如人脸复原或增强，我们恢复出来的人脸某些部分（如眉毛或者头发）可能不正确，但是对于总体的视觉效果来说，这些不正确的眉毛或者头发有时候使得复原结果看起来非常sharp。如果用现在的客观评价指标的话，可能会比较差一些。现在有很多工作都是来针对这一问题来研究如何定义一个好的评价指标，但是我认为目前这些评价指标跟主观感知还是有一定的鸿沟。

万人杰：我同意之前两位老师的意见，评价指标应该还是要与人的主观感觉紧密相连的。另外从我以前做reflection removal的经验来说，现在的error metrics在reflection removal这个问题里面还是有一些不足，目前常用的error metrics依旧还是SSIM、PSNR或者全局的一些global的评价指标，但是在reflection removal这个问题里，反射作为一种比较特殊的artifact，并不是像去雨和去雾这些问题里面的整张图片都是，反射有可能只在图片的某一个区域才有，那么在这个时候，你做出来的结果，很有可能这个反射是去除了，但同时也把这个图片另一个区域的一些东西抹掉了，而这时用这些针对于global scale的error metrics(比如SSIM)算出来的值是很低的，因为你的方法把其他一些区域的指标也给抹掉了。但是其实我们可以发现在这种情况下其实global的error metrics并不能很好地评价出带有反射的那个区域的去除效果怎么样，因为他们评价出来的是图像的整体的质量，而不是这个方法本身对于反射消除的效果怎么样。所以这个是我当时在做reflection removal的时候，一直在关注思考的一个点。

董超：这也同样是我非常关注的一个问题，评价指标也可分两种用途。第一种是如何客观地像人眼一样去评价不同算法的优劣跟好坏。第二种是评价指标可以帮助我们去做网络或者是算法的优化，比如PSNR、SSIM，它们虽然不一定是非常好的客观指标，但却是非常好的可以引导网络学习的指标。我们未来设计的指标，也许不一定能够完全客观地评价我们的图像，但却可以帮助我们去优化网络，沿着一个更好的方向去前进，这样的指标也是我们所希望的。它与现有的评价指标有什么样的差异呢？我认为评价指标这件事情也应该随着时代的发展而不断发展。比如GAN网络出来之后，它生成的图像将会与其之前的图像有完全不同的特征。这些特征，即使是人眼去看，也会有不同的分辨能力，完全没有看过GAN图像的人和看了很久GAN图像的人，感觉也是不一样的。当然后面可能还会有新的GAN，GAN之后还会有新的算法，可能会生成新的artifacts，那现有的指标也应该是随着这些算法而不断地去进步。只是目前三大会中很少能够看到关于评价指标方面的文章，IQA方面的文章往往发在了其他的地方。相对来说也弱化了它在CV界的地位。如果未来有更多的人投入进来，尤其是在三大会，我们可以看到更多这样的优秀文章出现，也许会是一个进步更快的方向，谢谢。

朱磊：现在来说，我们比较的时候，可能都有一个ground truth，计算一个pixel level 的PSNR，或者是偏向结构的SSIM或者相关的指标。很多时候，真实的图片没有ground truth，但是人眼其实对于真实图像复原结果是可容易区分好坏的，对于这个如果没有ground truth的情况，怎么来评价它的好坏，可能大家现在做的是一些user study。所以也许要有一些办法来解决这样没有ground truth评价指标的研究，这样也会很有意义。谢谢。

议题3

GAN在真实的图像复原领域到底扮演了一个什么样的角色？未来又可能如何发展？

万人杰：回到GAN的基本定义里，它就是用来对齐分布的。但是之前的话，我们在对齐分布的过程当中，特别是在反射问题里面，它也可能会造成一定的over fit的情况。因为在做反射消除的问题时，一般用的都是一种合成数据，在testing的时候用的是这种真实数据。那么在这个时候，用GAN生出来的结果可能会造成的over fit，有的时候也会对我们在真实数据上的测量造成一些影响。另外就是domain adaptation，这个方向现在被多人用来解决over fit的问题。但是在GAN训练出来的结果上面，有时候会面对看不到target的情况，如何来解决？因为你没有target的情况，特别是在一些实时的情况之下，GAN训练出来的结果，不知道下一个target怎么样，这个时候domain adaptation并不是特别地有用，可能需要一些domain generalization的方法。

董超：我认为GAN肯定是扮演了一个很重要的角色，首先从GAN的发明开始，就引起了很广泛的关注，因为在图像复原领域，它是可以真正地做到无中生有。从过去MSE指导到GAN指导，其实是一个非常大的跳跃。这个跳跃之后已经经过了两年多的优化，GAN也做了很多的进步，但是直到现在，GAN生成的效果也没有办法真正地满足实际需求，还是有一个很大的gap。要弥补这个很大的gap，是不断地提升现有的GAN技术？还是有一个新的技术出来再实现这样一个跳跃？如果有一个技术可以比现在GAN做的更好，或者好到可以把这个gap一下子跳过去，也许它不一定叫GAN，因为它做到的contribution已经远远大过只是去优化GAN。所以我是很期待未来会如何发展。

潘金山：GAN提供了一个比较好的度量，尤其是在处理真实场景复原问题的时候，我们不知道具体的退化模型是什么，这个时候比如我们可以先利用GAN先生成一些退化图像，保证生成退化图像与已有的退化图像分布接近，从而构造一些虚拟的patch对，这样可以做到类似无监督学习的模式。另外，GAN在图像超分辨率问题上面，比如分辨率比较低的情况，它可能取得一些比较好的结果。比如说最近GAN的作者出了一个新的工作，他就指出来可以用GAN解决这种分辨率极低的一个图像复原的任务。以上就是我对这个问题的一个理解。

顾舒航：GAN就是做分布的对齐。那么GAN对齐什么样的分布，之前大家直接对齐图像的分布，让生成的图符合真实图像里面的分布，后来发现可以对齐patch的分布，可以对齐feature的分布，或者像我们的工作，如果发现关注的差异是在高频的特性，只对齐高频部分的分布。短期内 GAN图像复原上面担任怎么样的角色，如果我们假设不研究GAN的具体方法，不研究对齐分布的方法，那么在应用层面来说我们研究用这些方法对齐什么分布。谢谢。

朱磊：目前来说比如说去雨去雾相关的图像复原问题，它是在一个合成的数据上做，不是说所有，大部分可能都在合成数据上做一个训练，希望它在真实图像上做的很好，GAN可能已经有一些方法用了这种方式。但是在加入更多的真实的数据在这个网络的训练当中，更好地提升它的generalization能力，我认为GAN这个技术完全可以在接下来我们加入这种真实的数据做training的时候，GAN的discriminator可以很好的用来解决这些问题，谢谢。

议题4

图像复原在实际落地中，有哪些挑战，学术界是如何来应对的，未来会有什么新的探索？

董超：首先来说，在实际落地当中的挑战，应该是工业界的人更加清楚，学术界的人也是雾里看花，所以我们也只是说跟工业界的人去合作会怎么样。整体来说，工业界应对的挑战更多时候是一些短平快的任务，也就是需要在三个月之内就会取得重要进展的一些成果和突破。但是学术界给的时间会更长，探索的代价会要更小，可以有一些更新奇的突破。工业界跟学术界之间的合作，往往会有一些长线的东西在学术界来做，短线的突破学术界是很难做过工业界的，因为他们有更多的工程师，更多的真实数据，也有更多跟客户的交接。实际上，在实际落地当中的挑战是非常之多的，真实场景下的客户，比如手机的客户，电视厂商的客户，他们远远比我们的reviewer要challenge的多，他们会挑各种各样的问题。而我认为学术界来应对的，就比工业界要不一样，更多的时候是应对一些真正的创新性的突破，还有一些长线的任务。我就讲到这里。

潘金山：我们对实际应用问题了解的比较浅，目前还在研究中。我这里说一下我们现在接触到的一个问题。以往在处理图像复原的问题，比如说deblurring或者super-resolution的时候，我们在解决这种问题的时候只是考虑单一的退化问题。但在实际问题当中，比如super-resolution问题，可能包含着有噪声或者压缩等各种因素。那么各种因素组合起来的话，这个问题就变得更难。另外目前方法的计算效率、深度神经网络模型大小等问题，也是在实际应用当中可能都是一些需要突破的点。

万人杰：对于有多种artifact存在的情况下，现在的方法很难去解决。比如我以前在作reflection removal的时候，也考虑过的一个问题，就是当监控摄像头透过车窗玻璃拍摄的时候，如何从这样的照片中恢复出车窗后面的那些信息。在这种情况下别说是在晚上，哪怕是在白天，拍摄到的图片不仅有车玻璃上形成的反射，也有因为车内部光线太暗所导致的low light image和拍摄设备所带来的噪声，以及模糊所带来的影响。而想在极端复杂的真实场景下来解决这个问题，对于学术界研究来说困难还是很大的。现在很多手机或者APP里都有deep learning或是denoising的功能，很少带有reflection removial的功能。唯一的孤例就是最近华为的P40pro，带有反射消除的功能。所以图像复原如何进行落地，真正的应该是工业界来考虑的问题。

顾舒航：我自己还有一个发现，如果学术界发论文，刷指标的话，对平均值这一类的指标比较感兴趣；但是工业界的许多产品中，对worst case比较感兴趣。即使你平均表现差一点，但是你的worst case好很多，他们也可以接受，但是如果有一张图处理的特别不好，这一点对他们来说是肯定不能接受的，我认为这是比较不同的。其他的就是我提及的速度，各种复杂的退化，还有其他老师们提及的挑战。

朱磊：我们接触了一些工业界的公司，了解到他们在做图像复原的时候碰到一些实际问题。第一，速度是一个很大的挑战。第二，现实当中的场景是非常非常复杂的。在现实当中，场景是各种各样的，雨雾噪声大小也是各式各样的。所以真正把模型拿来用在工业界问题会有很多很多的问题，事实上结果并不是那么好。当然这个也可以通过实际当中慢慢地去解决这个问题，因为现实当中场景也比较限定。这里两者应该是互相有帮助的，从真实场景当中，我们挑出更多更有恰当性的东西，再做一个学术界的问题的benchmark，让它更多更好地验证算法的效力。因为来自现实当中的场景很复杂，可能也更难，所以能更好地用来做一个算法的验证。我认为两者是非常有帮助的。

议题5

基于深度学习的底层图像复原任务，是否可以结合一些高层任务进行辅助，提高性能？

朱磊：当没有deep learning的时候，我们做传统方法的时候就考虑过这个问题。比如去噪，纹理消除，用到的信息都是基于intensity的或是基于梯度的一些priors，我确实也试过了。总所周知图片本来还是是有语义信息的，我们在做去纹理的时候，其实没有考虑这个语义信息。这个地方是有个人，在很多时候，我希望这个人所在的区域不要动，因为这个可能是我很关注的东西，当时我们就用了显著性的区域。人们很关注显著性区域，去纹理的时候这个地方不要动。我们把显著性的信息，用来辅助纹理的消除，实验证明当考虑显著性信息的时候，在这一块，它的结构信息会保留的更好。所以用刚才的任务来辅助，我认为是一个很好的途径，但是用哪些信息，怎么用，这个确实是一个开放的问题，也取决于现实当中的需求，谢谢。

顾舒航：我觉得两个方面，目前已经有不少工作了，一方面是高层有些信息做loss，刘鼎有一篇semantic segmentation task做loss，这样做能起到类似的作用。还包括perception loss也一样，用VGG的feature做loss，只是说没有到最后的标签，但是feature也是语义信息。与用标签相比，一个跑到了头，一跑到了中间，对于视觉质量可能都有提高。另一方面，语义信息可以作为引导，董超他们有一篇论文，就是使用semantic segmentation map对不同区域的super resolution进行引导，对不同语义信息的地方进行特殊的处理。

董超：这个事情已经被证明过很多次了，也有很多论文，我反倒认为一个相反的问题，如何用底层复原的任务来帮助高层复原，这件事情其实更challenge，实际上需求量更大。在去面对一些真实的场景，一些客户的时候，他们更多是希望我们能够在图像复原的同时帮助他们提高各种高层任务的识别率（比如人脸识别率）。对他们来说，那件事情是更加重要的。而至于人眼看上去好不好看，这个差异不会特别大。相反，在那样的一个任务之下，虽然也有paper来证明底层任务确实有助于高层任务，但是在实际应用中，很少有看到用底层任务来真正支援高层任务取得成功的案例。我认为这个问题还有一段很长的路要走。

潘金山：不管是之前比较早的传统方法，还是最近的深度学习的方法，大家都间接或直接地用到高层语义特征或者高层的视觉任务来指导图像复原。比如早期用来解决动态场景的deblurring的问题，早在2015年或者2013年的时候，有人就把segmentation这样的方法引入到动态场景下的图像去模糊问题。到后来，有人就开始把语义分割或是分类之后的结果迁移到网络里，比如董超提出SR的方法，这样也会有助于提升超分辨率任务的性能。还有高层任务有比较明显作用的是在特定任务中，比如字符或者人脸，不管是底层视觉任务，或者是高层视觉任务，这两个问题都有相互帮助的作用。比如在人脸图像的模糊问题上，如果不考虑人脸的语义信息，比如轮廓信息或是其他一些信息，恢复出来的人脸有一些结构可能保持不住，但是当我们把人脸的语义结构信息，比如轮廓或是其他的带有语义的结构引入到deblurring问题当中时，这样就能够保证更好地恢复出来人脸图像，而那些语义结构和其他一些特征也能保持的很好。另外，我们在这方面，主要是在一些特定问题上面做了一些尝试，主要是利用人脸的语义结构信息，更好地指导人脸图像去模糊问题。我们发现结合这样一个语义结构信息，可以更好地来帮助图像复原问题。

万人杰：高层任务进行辅助应该是很多做底层图像复原的researcher都会考虑的一个问题。因为像语义信息的话，一些图片比如被雾给污染的情况下，其他的语义信息还是会保持一定的连贯性。在这种情况之下，这种semantic的信息，肯定是可以拿来作为图像复原辅助的。

VALSE Webinar改版说明：

自2019年1月起，VALSE Webinar改革活动形式，由过去每次一个讲者的方式改为两种可能的形式：

1）Webinar专题研讨：每次活动有一个研讨主题，先邀请两位主题相关的优秀讲者做专题报告（每人30分钟），随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论（30分钟）。

2）Webinar特邀报告：每次活动邀请一位资深专家主讲，就其在自己熟悉领域的科研工作进行系统深入的介绍，报告时间50分钟，主持人与主讲人互动10分钟，自由问答10分钟。

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G、H、I、J、K群已满，除讲者等嘉宾外，只能申请加入VALSE M群，群号：531846386）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；