Google Meet中基于Web ML的背景相关功能

Google研究软件工程师Tingbo Hou和Tyler Mullen发表 在 google AI 博客上的文章中介绍了在Google Meet的背景动态虚化功能。
视频会议在人们的工作和个人生活中变得越来越重要。通过增强隐私或有趣的视觉效果来改善体验,可以帮助我们将重点放在会议本身上。为了实现这一目标,我们最近宣布了在Google Meet中模糊和替换背景的方法,该方法使用机器学习(ML)来更好地突出显示参与者,而不管他们周围的环境如何。其他解决方案需要安装其他软件,而Meet的功能则由MediaPipe内置的Web ML技术提供支持可以直接在您的浏览器中运行-无需其他步骤。开发这些功能的一个主要目标是在几乎所有设备上提供实时的,高效的,浏览器内嵌的功能。上述的目标是通过结合高效设备上ML模型,基于WebGL的渲染以及通过XNNPACK和 TFLite的基于Web的ML推理来实现的。
在这里插入图片描述
我们的Web ML解决方案概述
Meet的新功能是使用MediaPipe开发的,MediaPipe是Google的开源框架,用于跨平台可定制的ML解决方案,适用于实时和流媒体,它还支持ML解决方案,例如设备上的实时手,虹膜和身体姿势追踪。

任何设备上解决方案的核心需求是实现高性能。为此,MediaPipe的Web管道利用WebAssembly,这是一种专为Web浏览器设计的低级二进制代码格式,可提高执行繁重计算任务的速度。在运行时,浏览器将WebAssembly指令转换为本机代码,其执行速度比传统JavaScript代码快得多。此外,Chrome 84最近推出了对WebAssembly SIMD的支持,该组件可在每条指令中处理多个数据点,从而使性能提高两倍以上。

我们的解决方案首先通过使用ML推理来计算低分辨率mask,通过从背景中分割用户(在后面的文章中有更多关于分割模型的信息)来处理每个视频帧。可选地,我们进一步优化遮罩以使其与图像边界对齐。然后使用mask渲染通过WebGL2输出的视频,并模糊或替换背景。
在这里插入图片描述
在当前版本中,模型推断在客户端的CPU上执行,以实现低功耗和最大的设备覆盖范围。为了实现实时性能,我们设计了高效的ML模型,并通过XNNPACK库加速了推理,而XNNPACK库是第一个专门为新颖的WebAssembly SIMD规范设计的推理引擎。在XNNPACK和SIMD的加速下,细分模型可以在Web上实时运行。

通过MediaPipe的灵活配置,背景模糊/替换解决方案可根据设备功能调整其处理。在高端设备上,它运行完整的流水线以提供最高的视觉质量,而在低端设备上,它通过切换到计算轻量级的ML模型并绕过蒙版细化,继续保持高速运行。

分段模型
设备上的ML模型需要超轻量级,以实现快速推断,低功耗和小下载量。对于在浏览器中运行的模型,输入分辨率会极大地影响处理每一帧所需的浮点运算(FLOP)的数量,因此,其分辨率也必须很小。我们将图像缩小采样以减小尺寸,然后再将其输入模型。从低分辨率图像中恢复尽可能精细的分割蒙版增加了模型设计的挑战。

整个分段网络在编码和解码方面具有对称的结构,而解码器块(浅绿色)也与编码器块(浅蓝色)共享对称的层结构。具体来说,在全局编码池和解码器模块中都应用了具有全局平均池的通道级注意,这对有效的CPU推断很友好。
在这里插入图片描述
我们将MobileNetV3-small修改为编码器,该编码器已通过网络体系结构搜索进行了优化,以在资源需求较低的情况下获得最佳性能。为了将模型尺寸减少50%,我们使用float16量化将模型导出到TFLite,从而导致重量精度略有下降,但对质量没有明显影响。生成的模型具有193K参数,大小仅为400KB。

渲染效果
分割完成后,我们将OpenGL着色器用于视频处理和效果渲染,其中的挑战是有效地渲染而不引入伪像。在细化阶段,我们应用联合双边过滤器以平滑低分辨率蒙版。
在这里插入图片描述
模糊着色器通过与分段蒙版值成比例地调整每个像素处的模糊强度来模拟散景效果,类似于光学系统中的混淆圈(CoC)。像素通过其CoC半径加权,因此前景像素不会渗入背景。我们为加权模糊实现了可分离的滤镜,而不是流行的高斯金字塔,因为它消除了围绕人的光晕伪影。模糊会以低分辨率执行以提高效率,并以原始分辨率与输入帧混合。
在这里插入图片描述
对于背景替换,我们采用一种称为光包裹的合成技术,用于混合分割的人和自定义的背景图像。光线环绕可以使背景光溢出到前景元素上,从而使合成更加身临其境,从而有助于软化分割边缘。当前景和替换后的背景之间存在较大对比时,它还有助于最大程度地减少光晕伪影。
在这里插入图片描述

性能
为了优化不同设备的使用体验,我们提供了多种输入尺寸(即当前版本中的256x144和160x96)的型号,并根据可用的硬件资源自动选择最佳型号。

我们评估了两种常见设备上模型推理的速度和端到端流程:具有2.2 GHz六核Intel Core i7的MacBook Pro 2018和具有Intel Celeron N3060的Acer Chromebook 11。对于720p输入,MacBook Pro可以在120 FPS下运行更高质量的型号,而在70 FPS下运行端到端管道,而Chromebook在较低质量型号下运行推理速度为62 FPS,而端到端的运行速率则为33 FPS。

在这里插入图片描述

为了定量评估模型的准确性,我们采用了交集-联合(IOU)和边界F-度量的流行度量。两种型号都可以达到高质量,尤其是对于拥有如此轻量级的网络而言:

在这里插入图片描述
通过IOU和边界F得分对模型准确性进行评估。
我们还将针对细分模型发布随附的模型卡,其中详细介绍了我们的公平性评估。我们的评估数据包含来自全球17个地理区域的图像,并带有肤色和性别注释。我们的分析表明,该模型在各个地区,肤色和性别方面的性能均保持一致,而IOU指标仅有很小的偏差。

结束语
我们引入了新的浏览器内ML解决方案,用于模糊处理和替换Google Meet中的背景。这样,ML模型和OpenGL着色器可以在Web上有效运行。所开发的功能即使在低功耗设备上也能以低功耗实现实时性能。

技术交流QQ:1712312796

致谢
特别感谢Meet团队的成员以及参与此项目的其他人员,特别是Sebastian Jansson,Rikard Lundmark,Stephan Reiter,Fabian Bergmark,Ben Wagner,Stefan Holmer,Dan Gunnarson,StéphaneHulaud和我们所有工作团队的成员我们的技术:Siargey Pisarchyk,Karthik Raveendran,Chris McClanahan,Marat Dukhan,Frank Barchard,Ming Guang Yong,Chuo-Ling Chang,Michael Hays,Camillo Lugaresi,Gregory Karpiak,Siarhei Kazakou,Matsvei Zhdanovich和Matthias Grundmann。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值