文 / 研究员 Rahul Garg 和软件工程师 Neal Wadhwa
通过对背景进行模糊化处理,Pixel 智能手机的人像模式可聚焦对象,让您拍摄出专业级图像。去年,除公布其他内容外,我们还曾介绍如何通过传统的非学习式立体算法,并利用单摄像头及其相位检测自动对焦 (PDAF) 像素技术(亦称为双像素自动对焦)计算深度。今年,我们利用机器学习来改进 Pixel 3 的深度估算功能,进而提升人像模式的拍摄质量。

左图:HDR+ 原始图像。右图:基于传统立体算法与机器学习所得深度的人像模式拍摄效果对比。使用机器学习得到的图像深度错误更少。值得注意的是,在传统立体算法所得结果中,男士身后的很多水平线被错误地估算为与其处于同一深度,因而保留了锐度 (Mike Milne)
简要回顾
正如去年的博文所述,人像模式利用神经网络确定人与背景的对应像素,并利用 PDAF 像素产生的深度信息来增强此两层人物分割掩码。此操作旨在实现依赖深度的模糊处理,这更接近专业相机的做法。
PDAF 像素的工作原理是对同一场景捕捉两个略微不同的视野,如下图所示。通过来回切换这两个视野,我们会发现人处于静止状态,而背景则呈现水平移动,这种效果称为视差。由于视差是点和相机的距离与两个视点之间距离的函数,因此我们可将一个视野中的每个点与另一个视野中的对应点进行匹配,以此估算深度。

左侧和中间的这两张 PDAF 图像看起来非常相似,但您可以在右侧的裁剪图中看到两者之间的视差。其中裁剪图中央的圆形区域最为明显
然而,由于两个视野间的场景视点几乎未移动,我们很难在 PDAF 图像中找到这些对应关系(此方法称为 “双目立体视觉”)。此外,所有立体技术均深受孔径问题困恼。孔径问题是指,如果您通过小孔径观察场景,则无法为平行于立体基线(即两个摄像头之间的连线)的线条找到对应关系。换言之