R TALK | 旷视研究院范浩强&周舒畅： AI计算机摄影的原理、应用与硬件设计

旷视

于 2020-04-02 16:55:50 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/Megvii_tech/article/details/105283650

版权

本文是旷视研究院的范浩强和周舒畅在「R TALK」中的分享，探讨了AI计算摄影的原理、应用及硬件设计。主要内容包括超分辨率问题、图像降噪技术，以及如何通过神经网络提升图像质量。此外，还介绍了计算摄影在硬件设计上的挑战和软硬协同的重要性。

摘要由CSDN通过智能技术生成

「R TALK」是一个深度学习专栏，由北京智源-旷视联合实验室推出，旨在通过一场场精彩纷呈的深度学习演讲，展示旷视研究院的学术分享及阶段性技术成果，抛砖引玉，推陈出新，推动中国乃至全球领域深度学习技术的发展。这是「R Talk」第 11 期分享。

本次R TALK是一次联合分享，由旷视研究院手机与移动终端算法负责人范浩强和旷视研究院集成电路算法负责人周舒畅带大家踏上一场AI计算摄影之旅，分享的主题是「AI计算摄影的原理、应用与硬件设计」，范浩强负责计算摄影的原理、应用部分，周舒畅负责计算摄影的硬件设计部分。

大家好，我是范浩强。感谢大家收听这次分享。首先，我们看下计算摄影在做什么。举个例子，晴朗天气下的夜空总是令人心驰神往，总能为一个加班到深夜的人带来一丝感动。

旷视研究员拍摄的夜空

面对如此美景，我们经常会忍不住掏出手机，记录住这美丽的瞬间；可是如何才能拍得更加清晰呢？为什么一些手机只把月亮拍成一张白色的饼，另一些手机却很好地还原了本来的细节呢？这就是计算机摄影学的超分辨率问题。

明白这个问题，要从手机是如何拍摄图像说起。光通过镜头打到相机的图像传感器，传感器获得了一系列原始的测量值。在这个过程中，这些测量值本身和我们最终看到的图像是不同的。

如下图（中）显示，这些测量值并不是每个像素都具有R\G\B三个通道，而是只记录其中一个的信息，所以，在拿到这些原始数据之后，设备的图像处理器会对其进行处理，最终得到我们看到的图像。下图（右）是用一款出厂设置的手机拍摄的月亮。

可知，虽然这款手机拍出了月亮的大体形状，但是却丢失了表面的大量纹理细节。那么有没有不同的算法，重建出画质更好的图像呢？这便是计算机摄影学尝试解决的一个问题。算法本身的好坏与差异最终会反映到图像的质量上，通过研究更好的算法，我们可以让拍摄的画面更加精美。

上图左边依然是前面那个月亮，只不过呈现的是相机原始测量值（RAW图）结果。可以发现，相机原始拍摄的月亮甚至比手机图像处理器处理过的画面细节更丰富。

究其原因是手机的图像处理器并没有针对这样的场景进行优化；上图右边是旷视研究员专门针对月亮开发的图像重建算法，经过对原始测量值的一系列叠加和对齐之后，恢复了这张高分辨率的图像。

因此，计算机摄影学的工作内容即是通过算法对相机本身的得到的测量值进行操作，使得重建出的图像比其它方法得到的图像拥有更好的性质，比如更好的动态范围、更佳的信噪比、更高的分辨率。

噪声

由于目前的主流传感器会产生较大噪声，比如热噪声、光子噪声、电压值读取产生的噪声，相应地，计算机摄影学的主要工作便是通过算法尽可能降低上述噪声对画面的影响，还原出更高质量的图像。

这里存在一个有趣的问题，上述的热噪声与光子噪声存在于任何的图像系统，包括人眼，但为什么人们从来没有在眼睛里看见这些噪声呢？这是因为大脑已有一个强大的视觉处理系统，对噪声进行自动过滤。那么如何进行降噪呢？

降噪

关注