麻省理工开源发布新的AI算法可以帮助相机使用移动阴影“看到”相机外的东西

麻省理工学院的一组研究人员创建了一种新的AI算法,该算法可以帮助相机仅使用移动阴影“看到”相机外的东西。麻省理工学院CSAIL的科学家在题为“ 计算镜:通过深矩阵分解进行的盲逆光传输”中,分享了他们如何将相机对准一堆物体,然后拍摄移动的人在这些物体上形成的阴影的影像相机。

人工智能分析了阴影,并能够重建出一个模糊但非常准确的视频,该视频显示了该人的手在做什么。

研究人员团队创建了一种新的AI算法,该算法可以帮助摄像机仅使用移动的阴影“看到”摄像机外的物体。

他们的方法可以根据其投射的阴影来重建隐藏的视频。结果是您可以估计隐藏视频的外观.

通过进一步改进,该方法可以使自动驾驶汽车检测隐藏的障碍物。

MIT CSAIL的Rachel Gordon谈到了其他可能性:老年护理中心在关注居民的安全;搜索和救援团队在必须导航危险和受阻区域时会利用此功能。

总而言之,研究人员已经采取了一条有趣的途径来获取视线之外的信息,但是从某种意义上说,麻省理工学院的其他人员都已经做到了。CSAIL的Gordon说,七年前,麻省理工学院研究人员关注的是正常视线以外的场景,然后他们使用激光产生3D图像。

但是,在最新的研究工作中,该团队希望了解不使用特殊设备就能实现的目标。戈登引用了首席研究员的话。Miika Aittala说道:“您可以使用非视线成像设备(例如激光器)取得很多成就,但是在我们的方法中,您只能使用自然到达相机的光线,并且您会尽最大努力摆脱其中的稀缺信息。”

想一想。面临的挑战是如何理解这些照明提示并加以理解。思考算法。戈登(Gordon)写道,该团队致力于通过算法上指定他们想要一种与真实的真实阴影和阴影相对应的“加扰”模式来消除歧义,以发现隐藏的视频,看起来它具有边缘和对象移动一致。

她解释说,他们的算法同时训练两个神经网络。“一个网络产生了加扰模式,另一个网络估计了隐藏视频。当这两个因素的组合再现了从混乱中记录的视频时,这些网络就会得到回报,从而驱使他们用合理的隐藏数据来解释观察结果。

相关工作

矩阵分解: 矩阵分解是计算机科学和数学的基本主题,许多广泛使用的矩阵变换和分解(例如奇异值分解,特征分解和LU分解)都是受约束的矩阵分解的实例。在盲或轻约束矩阵分解方面已经进行了广泛的研究。该问题在面部和物体识别,声音分离,表示学习和自动推荐中都有应用。神经网络已在该领域得到广泛使用,并且通常用于低秩假设的矩阵完成。

深度映像优先:在2018年,Ulyanov团队在“深层图像先验”上发表了论文,由于卷积神经网络的结构,即使生成时使用随机权重且没有任何预训练,它们在生成的输出上也会固有地像先验一样施加自然图像。自出版以来,还有其他几篇论文将Deep Image Prior用于各种应用,包括压缩传感,图像分解,降噪和图像压缩。在并行工作中,“深层图像先验”和相关思想也已应用于盲反卷积。

光传输测量:过去在使用各种技术测量和近似光传输矩阵方面已有大量工作,包括压缩传感,图像反射场的恢复,反射场是入射光场和出射光场之间的光传输矩阵,非视线(NLoS)成像。主动NLoS成像的过去工作主要集中在利用飞行时间信息来解决场景的主动技术上。飞行时间信息允许恢复有关隐藏场景的大量信息,包括人数,对象跟踪和常规3D结构。相反,被动NLoS成像的过去工作主要集中在基于封堵器的成像方法上。这些成像方法可以简单地将周围环境中的对象视为针刺或针孔,以重建隐藏的场景。其他人使用角获取运动场景的一维重建,或使用复杂的遮挡物模型来推断光场。

逆光传输

通过介绍逆光传输问题,并在已知传输矩阵的情况下,使用经典矩阵求逆解法进行数值真实世界的实验,来开始我们因式分解方法的开发。在后面的部分中,我们将研究未知传输矩阵的情况。

图1:本文中使用的典型实验设置。 摄像机看到一堆混乱,而隐藏的视频L正在投影到摄像机的直接视图Z之外。 我们希望从杂波中观察到的阴影和阴影中恢复隐藏的视频。 这张照片中的室内灯仅出于可视化目的而打开。 在常规捕获过程中,我们将尽量减少环境光的任何来源。 我们鼓励读者观看补充视频,以查看数据和动态结果。

  • 问题表述

本文所解决的问题在图1中进行了说明。我们观察到视频Z例如杂乱无章,而隐藏的视频L在摄像机后面的投影仪上播放。

  • 用已知的光传输矩阵求逆

我们首先描述一种基线方法,用于在非盲情况下从观察到的视频中推断隐藏视频。

图2:具有已知光传输矩阵的重建。

基于深度图像先验的矩阵分解

我们的目标是在不知道光传输矩阵的情况下恢复潜在因素。在本节中,我们描述了一种新颖的矩阵分解方法,该方法使用Deep Image Prior来鼓励因子矩阵中类似自然图像的结构。我们首先描述关于光传输问题的一维玩具版本以及一般图像状矩阵的数值实验。我们还证明了经典方法无法解决此问题。

  • 问题表述

在许多推断问题中,众所周知,观察到的量是作为潜在矩阵的乘积形成的,任务是恢复这些因子。

  • 方法

我们受到Deep Image Prior和Double-DIP的启发,其中通过卷积神经网络对一幅图像或一对图像进行参数化,并针对每个测试实例以一次性方式对其进行了优化。

图3:我们的矩阵分解方法的高级概述。 CNN随机初始化并“过度拟合”,以将两个噪声矢量映射到两个矩阵T和L,目的是使其乘积与输入矩阵Z匹配。与直接为T和L的条目进行直接优化相反,此过程 在这些矩阵中将因式分解正规化为喜欢像图像的结构。

  • 实验与结果

我们在综合生成的任务上测试了基于CNN的因式分解方法,其中输入是一对已知的地面真理矩阵的乘积。我们使用模拟光传输和视频矩阵特征的玩具数据,以及一般的自然图像。

图4:矩阵分解结果。 该方法的输入是两个最左边矩阵的乘积。 我们的方法会找到视觉可读的因素,例如 恢复第一个示例中的所有三个微弱曲线。 在右侧,我们显示了两种不同的基线:一种是通过Matlab的非负矩阵分解(在交替最小二乘模式下)进行计算的,另一种是使用我们的代码但直接针对矩阵项进行优化而不是使用CNN进行优化的算法,其优先级为L1。

  • 失真和故障模式

因子矩阵经常扭曲或翻转。这是由于分解矩阵中的模棱两可,因为因子矩阵可以表示相互抵消的失真。但是,DIP倾向于强烈阻止破坏空间连续性并扰乱图像的失真。

盲光传输分解

现在,我们结合前两节的思想,并提出了一种在无法访问测得的光传输矩阵时盲目解决逆光传输问题的方法。我们在综合和真实数据上均显示结果,并通过实验研究该方法的行为。

  • 设置

我们的目标是将I ∗ J像素和t帧的观测视频Z∈R IJ×t分解为两个矩阵的乘积:光传输T∈R IJ×ij和隐藏视频L∈R ij ×t隐藏的视频分辨率为i ∗ j,i = j =16。我们大多数输入视频的大小为I = 96(高度),J = 128(宽度),t的范围约为500到1500帧。按照我们在第4节中的方法,该任务要求设计两个生成各自矩阵的卷积神经网络。注意,T可以看作是4维I×J×i×j张量,L可以看作是3维i×j×t张量。我们设计CNN来生成这些形状的张量,然后在随后的网络操作中将结果重整为堆叠的矩阵表示形式,以便评估矩阵乘积。卷积滤波器的维数确定结果中的哪些维与图像结构绑定在一起。在下面,我们描述产生这些因素的网络。我们的架构概述如图5所示。

图5:我们的反向逆光传输方法的体系结构和数据流的概述。 还显示(左下)是存储在U中的左奇异矢量的示例。L和Q是卷积神经网络,其余块是多维张量或矩阵,尺寸显示在边缘。 在初始化期间,阴影区域中的矩阵仅计算一次。 该方法的输入Z显示在右下角。

  • 光传输生成器网络

光传输张量T同样在其所有尺寸之间均显示图像结构,原则上要求使用4D卷积。不幸的是,这些评估起来很慢,并且在大多数CNN框架中都没有实现。我们最初还尝试了沿I,J维度和i,j维度在2D卷积之间进行交替,否则进行了相同的顺序放大设计。尽管我们在此设计上取得了一些成功,但我们发现了一种截然不同的架构,可以更好地工作。

图6:使用我们的方法进行盲光传输分解。 前三个序列投影到相机后面的墙上。 乐高顺序是在照明墙前现场进行的。

  • 实验与结果

我们使用在不同场景中以不同的隐藏投影视频录制的投影仪设置(如第3节中所述)收集的多个视频数据集测试我们的方法(图6)。我们鼓励读者观看补充视频,因为运动是这项工作的主要重点。

  • 与现有方法的比较

我们将我们的方法与Levin等人的去模糊方法的扩展进行比较。我们认为盲反卷积是最接近我们的问题,因为它可以看作是卷积矩阵和潜锐图像之间的矩阵分解。

我们扩展了它们的边缘化方法来处理通用矩阵,而不仅仅是卷积,并在使用它们之前使用了相同的稀疏导数(有关如何适应该方法的更多详细信息,请参见补充材料)。图6显示,这种方法产生的劣质重建效果非常差。

讨论和结论

论文或源码数据集下载地址:关注“图像算法”wx公众号 回复“移动阴影”,我们已经表明,无需事先校准,杂乱的场景可以通过计算变成低分辨率的镜子。给定可见场景的单个输入视频,我们可以恢复隐藏场景的潜像以及光传输矩阵。我们已经将问题表示为将输入视频分解为传输矩阵和照明视频的问题,并使用了由先验的卷积神经网络组成的深层先验。我们发现引人注目的是,仅要求CNN可轻松表达的潜在因素就足以解决我们的问题,从而使我们能够完全绕开挑战,例如对场景的几何形状和反射率属性进行估算。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值