在 Pixel 3 手机上学习预测深度

Pixel 3通过结合传统立体算法与机器学习改进了深度估算,提升了人像模式的拍摄质量。利用PDAF像素和深度线索,训练的卷积神经网络预测相对深度,实现更准确的背景模糊。此技术解决了传统方法中的孔径问题,提高用户体验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文 / 研究员 Rahul Garg 和软件工程师 Neal Wadhwa

通过对背景进行模糊化处理,Pixel 智能手机的人像模式可聚焦对象,让您拍摄出专业级图像。去年,除公布其他内容外,我们还曾介绍如何通过传统的非学习式立体算法,并利用单摄像头及其相位检测自动对焦 (PDAF) 像素技术(亦称为双像素自动对焦)计算深度。今年,我们利用机器学习来改进 Pixel 3 的深度估算功能,进而提升人像模式的拍摄质量。


640?wx_fmt=gif

左图:HDR+ 原始图像。右图:基于传统立体算法与机器学习所得深度的人像模式拍摄效果对比。使用机器学习得到的图像深度错误更少。值得注意的是,在传统立体算法所得结果中,男士身后的很多水平线被错误地估算为与其处于同一深度,因而保留了锐度 (Mike Milne)



简要回顾

正如去年的博文所述,人像模式利用神经网络确定人与背景的对应像素,并利用 PDAF 像素产生的深度信息来增强此两层人物分割掩码。此操作旨在实现依赖深度的模糊处理,这更接近专业相机的做法。 


PDAF 像素的工作原理是对同一场景捕捉两个略微不同的视野,如下图所示。通过来回切换这两个视野,我们会发现人处于静止状态,而背景则呈现水平移动,这种效果称为视差。由于视差是点和相机的距离与两个视点之间距离的函数,因此我们可将一个视野中的每个点与另一个视野中的对应点进行匹配,以此估算深度。


640?wx_fmt=gif

左侧和中间的这两张 PDAF 图像看起来非常相似,但您可以在右侧的裁剪图中看到两者之间的视差。其中裁剪图中央的圆形区域最为明显


然而,由于两个视野间的场景视点几乎未移动,我们很难在 PDAF 图像中找到这些对应关系(此方法称为 “双目立体视觉”)。此外,所有立体技术均深受孔径问题困恼。孔径问题是指,如果您通过小孔径观察场景,则无法为平行于立体基线(即两个摄像头之间的连线)的线条找到对应关系。换言之

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值