【论文阅读】ECCV BEST PAPER最佳论文 Minimalist Vision with Freeform Pixels

使用自由形态像素的极简视觉 Minimalist Vision with Freeform Pixels

Jeremy Klotz 和 Shree K. Nayar
哥伦比亚大学计算机科学系,纽约,纽约,美国
{jklotz,nayar}@cs.columbia.edu

摘要

一个极简视觉系统使用解决一个视觉任务所需的最少数量的像素。虽然传统相机使用一个大的方形像素网格,极简相机则使用自由形态的像素,**这些像素可以呈现任意形状,以增加它们的信息量。**我们展示了极简相机的硬件可以被建模为神经网络的第一层,而后续层则用于推理。对任何给定任务训练该网络会生成相机自由形态像素的形状,每个像素由光电探测器和光学掩模实现。我们设计了极简相机用于监控室内空间(使用8个像素)、测量房间照明(使用8个像素)以及估算交通流量(使用8个像素)。这些系统的性能与传统相机相当,而传统相机使用数量级更多的像素。极简视觉有两个主要优势。首先,它自然倾向于保护场景中个人的隐私,因为捕获的信息不足以提取视觉细节。其次,由于极简相机的测量数量非常少,我们证明它可以完全自供电,即无需外部电源或电池运行。

关键词: 自由形态像素 · 极简相机 · 轻量级视觉 · 自供电相机 · 隐私保护 · 深度光学 · 计算成像


1. 为什么要采用极简视觉?

如今,计算机视觉在我们的日常生活中扮演着不可或缺的角色。它在从视频监控和监测到自动驾驶和机器人技术的广泛应用中充当了支柱。广义上讲,视觉应用可以分为两类。在一类中,系统试图推断出场景中物体和活动的详细信息。例子包括物体检测与识别、光流估计与跟踪以及3D重建。**第二类应用则涉及对场景中物体的统计信息和环境状态的高级推断。**这个领域的例子包括监控工作空间的占用情况、高速公路上的交通流量以及城市环境中的照明情况。

在我们的工作中,我们对第二类任务感兴趣,称之为“轻量级视觉”。我们声称,轻量级任务可以不用传统图像,而是通过非常少量但富含信息的测量来解决。
Q1:少量但是富含信息是如何实现的?


2. 极简视觉与自由形态像素

在这里插入图片描述

图1:使用极简视觉监控工作空间。(a) 任务是计算人数、追踪指定区域的占用情况,并检测门何时打开。一个由相机和推理网络组成的极简视觉系统可以使用少量自由形态像素执行这种轻量级任务。(b) 整个系统可以被建模为一个单一网络。一旦该网络被训练,第一层指定了相机的设计,其原型如图©所示。该系统可以计算房间中的人数(使用2个像素)、跟踪每个区域的占用情况(每个区域使用2个像素),并检测门是否打开(使用2个像素)。鉴于其测量数量较少,极简相机可以完全自供电。

我们引入了极简视觉minimalist vision作为一种解决轻量级任务的方法。在艺术中,极简主义是一种技术,旨在将作品简化为其基本元素。目标是确保每个使用的元素都有其用途。在我们的背景下,**几乎所有视觉系统中使用的传统相机捕获的信息远远超过了解决轻量级任务所需的信息。我们的工作试图回答两个关键问题:(a) 给定一个任务,达到预期性能所需的视觉测量的最少数量是多少?(b) 我们如何构建一个能够生成这些测量的相机?如果我们成功地设计出这样的极简相机,**它将具备以下两个主要优点:

  1. 隐私保护:当传统相机捕获图像时,它通常会揭示minimalist vision的场景信息。例如,一张图像可以暴露个人的身份、位置甚至意图。这是一个众所周知的问题,已经使得相机的广泛部署成为了高度争议的话题【38】。由于极简视觉在给定任务中捕获最少的测量信息,因此很难从中提取出场景中的视觉细节,如个人的生物特征。虽然我们不能保证所有应用中的隐私都能得到保护,但我们主张,极简视觉方法的内在特性是倾向于保护隐私的。

  2. 自供电:典型相机的成像流程包括像素读取、模拟到数字(A/D)转换、信号处理和传输。每个步骤消耗的功率,进而整个流程的功率,近似与像素数量成线性关系。由于极简系统使用的像素数量极少,其能耗比典型相机少得多。因此,我们可以设计出一个极简相机,只需利用照射到它上的光即可获取能量,无需使用外部电源或电池。换句话说,极简相机可以完全自供电,因此能够更广泛地部署。

为了实现极简视觉,我们的关键见解是允许每个像素具有任意形状。我们将这种像素称为“自由形态像素”。我们展示了自由形态像素执行了场景的线性投影,使得我们可以将一组这样的像素建模为神经网络中的单一层。因此,一个极简视觉系统,包括相机和推理网络,可以被建模为一个完整的网络。对于给定的任务,例如监控图1(a)中的室内工作空间,我们使用从辅助相机捕获的视频来训练图1(b)中的网络。**训练后的网络揭示了自由形态像素的形状以及推理网络的权重。**然后制造相机(图1©),每个自由形态像素通过光学掩模和光电探测器实现。在图1(a)中,使用仅8个自由形态像素的相机产生的结果(人数统计、门状态和区域占用)覆盖在场景图像上。

我们进行了广泛的合成和真实实验,证明自由形态像素可以使用比传统相机少得多的测量来解决轻量级任务。我们使用极简相机原型演示了多种任务:监控室内空间(使用8个像素)、测量房间照明(使用8个像素)以及估算交通流量(使用8个像素)。最后,我们展示了我们的原型相机可以仅利用照射到其上的光获取能量。在室内照明下,它能够读取并无线传输24个自由形态像素的测量值,速度为每秒30帧,而无需使用外部电源或电池。


2. 相关工作

我们的工作受到Pooj等人【28】的启发,他们引入了极简相机 minimalist camera,的概念,其中每个像素是光学掩模和光电探测器的组合。在他们的工作中,每个掩模都是手工设计的,用于解决一些简单的视觉任务,例如入侵检测和物体速度估计。我们的工作引入了自由形态像素a freeform pixel的概念,可以使用任何给定任务的训练数据自动设计。**我们主要的观察是,具有自由形态像素的相机可以被建模为神经网络的第一层。一旦该网络被训练,第一层的权重用于制造相机,其余的网络则用于推理。**此外,我们展示了极简相机可以完全自供电,使其比传统相机更容易部署。

我们的工作与深度光学密切相关,这是一个使用深度学习联合设计光学和软件的新兴领域【40】。Sitzmann等人【30】使用这种方法设计了一种用于提高图像质量的光学元件。随后,多项工作使用这种方法设计了用于图像增强【13,24,31】和深度估计【7,15,41】的光学元件。类似的方法也被用于使用可微分光线追踪【9,20,32】和可微分代理函数【37】来设计成像镜头。Tseng等人【36】使用这种技术设计了具有改进图像质量的超表面镜头。在这些工作中,摄像机的光学模型被整合到神经网络中,网络通过训练来设计光学元件以实现特定目标。虽然我们遵循了类似的方法,但我们的动机不同。我们不是为了设计光学元件以提高图像质量或任务性能,而是为了设计能够通过最少测量保护隐私并自供电的相机

先前的工作也展示了如何在现有的网络架构中使用光学器件以减少推理过程中所需的计算量。Lin等人【22】使用衍射光学层制造了整个图像分类网络。其他研究探索了将卷积网络的第一层以光学方式实现的混合方法。在【8】中,角度敏感像素用于将图像与一组常用滤波器进行卷积,而在【6】中,光学相位掩模被用于实现学习滤波器。我们的工作目标不同;我们的目标是最小化解决任务所需的视觉测量数量,而不是减少训练网络中的计算量。

Duarte等人【12】提出了一个单像素相机,用于捕获场景的压缩测量。虽然单像素相机和我们的极简相机都捕获了场景的线性投影,但单像素相机使用数千次测量(通过单个探测器依次获得)来重建场景图像。也有研究通过振幅掩模【2】、相位掩模【4】和扩散器【1】展示了图像和场景重建方法。上述所有方法的目标都是重建图像或三维场景,而极简相机则跳过图像重建,直接通过最少的测量解决任务。

一些研究探索了成像架构,旨在在捕获足够的任务信息的同时保护个人隐私。其中一些工作尝试通过使用低分辨率图像传感器【10】和飞行时间传感器【17】消除捕获图像中的生物特征细节。其他工作通过引入光学模糊【26, 27】、在读出之前在模拟域中进行图像处理【33】或设计仅保留目标视觉特征而消除隐私相关细节的光学元件【16, 34】来解决隐私保护问题。由于我们的方法是最小化视觉测量数量,我们声称我们隐含地保护了隐私。我们通过仿真展示了自由形态像素在面部识别任务上无法取得有意义的准确性,从而证明了这一点。

众所周知,相机非常耗电——图像传感器本身就可能消耗数百毫瓦的电能【21】。Nayar等人【25】展示了一种具有30×40像素的自供电相机,它利用照射到传感器上的光能读取完整图像。然而,收集的能量不足以实现图像的无线传输。由于我们极简方法的像素数量很少,我们的相机能够通过仅利用照射到相机上的光能来读取和无线传输测量值。这是我们方法的一个重要特性;我们旨在开发完全自供电的相机,不需要电缆连接,从而可以更广泛地部署。


3. 自由形态像素

自数字成像诞生以来,相机一直使用规则网格上的方形像素记录图像。虽然过去曾提出过其他像素镶嵌方式【3,14】,但方形像素仍然是标准的传感元素。我们假设,对于某些视觉任务,方形像素迫使相机捕获了远超所需的测量。
在这里插入图片描述

考虑图2(a)所示的传统相机模型,其中单个方形像素(探测器)接收来自场景块的光。当像素很小时,它很可能测量与任务无关的信息。如果像素很大,它的测量可能包括与任务相关的信息,但同时也可能被无关的信息污染。简而言之,如果我们希望为某个任务捕获最少的测量,方形像素几乎总是错误的选择。

我们提出了自由形态像素,它们可以采用任意形状。如图2(b)所示,自由形态像素可以通过在光电探测器前放置光学掩模来实现。虽然图2©展示了一个二进制掩模,但掩模的每个点可以有任意的透光度。我们将这种透光度函数记为M(x, y),其中0 ≤ M(x, y) ≤ 1。如果我们假设探测器的尺寸非常小,那么它产生的测量值p可以表示为:

在这里插入图片描述

其中,I(x, y)是三维场景投影到掩模平面上的图像,其投影中心位于探测器处。上述表达式表明,每个自由形态像素实际上执行的是场景的线性投影。


3.1 神经网络中的极简相机

由于自由形态像素执行的是线性投影,一组这样的像素可以被建模为网络中的一层全连接层,没有偏置项。基于这一观察,我们可以为一个任务构建一个包含自由形态像素和推理网络的单一网络,如图1(b)所示。训练该网络所需的数据是通过图1©所示的训练相机收集的。一旦网络训练完成,第一层的学习权重用于制造自由形态像素的掩模。解决任务所需的最小数量的自由形态像素构成了极简相机。

需要注意的是,传统相机中的方形像素是自由形态像素的一个特殊情况。因此,如果没有限制像素数量,极简相机可以解决任何传统相机能够解决的任务。总体而言,极简视觉可以显著减少完成轻量级任务所需的像素数量。随着任务复杂性的增加,所需的自由形态像素数量也会增加,极简视觉的优势也会减弱。对于复杂的任务(例如光流或面部识别),所需的自由形态像素数量可能接近传统相机的像素数量。简言之,自由形态像素的作用是显著减少解决任务所需的测量数量。

3.2 传感器模型

虽然自由形态像素提供了设计的灵活性,但它也受到物理限制。首先,掩模的透光率必须为正,且不能大于1。其次,探测器具有方向响应,并且其有效面积不是零。最后,探测器具有有限的动态范围,并且其输出会包含噪声。在建模网络的第一层(自由形态像素)时,必须考虑所有这些因素。接下来,我们将描述我们开发的完整传感器模型,并解释如何将其整合到网络中。
在这里插入图片描述

光学:如图3所示,放置在掩模后方的探测器预期对入射光的方向θ有响应。我们可以将其方向响应表示为函数d(x, y);它像是一种渐晕效应,随θ增加而衰减。因此,探测器接收到的光场可以被建模为I(x, y)M(x, y)d(x, y)。

实际上,任何探测器都会有一个非零的有效区域。可以通过将I(x, y)与核b(x, y)进行模糊处理来建模该有效区域的效应,该核的宽度等于有效区域的大小。因此,探测器接收到的总光能量可以表示为:

p d = ∫ ∫ x , y ( I ( x , y ) ∗ b ( x , y ) ) M ( x , y ) d ( x , y ) d x d y p_d = \int\int_{x,y} \left( I(x, y) * b(x, y) \right) M(x, y) d(x, y) dx dy pd=x,y(I(x,y)b(x,y))M(x,y)d(x,y)dxdy
(2)

如前所述,掩模透光率函数M(x, y)的取值必须在0和1之间。然而,在将像素建模为网络的一部分时,最好让所有可训练参数都是无界的。为此,我们定义了Mt(x, y),使得M(x, y) = σ(Mt(x, y)),其中σ是Sigmoid函数。现在,训练参数由Mt(x, y)表示,对应的M(x, y)被保证在0和1之间。

探测器:理想情况下,探测器测量的是它接收到的总光能量pd。然而,真实的探测器具有增益、噪声特性和有限的动态范围,如图3所示。首先,当探测器将入射辐照度转换为模拟信号时,pd 会被增益G放大。在读取该模拟信号并将其转换为数字数值时,读取噪声和量化噪声会被引入,分别可以建模为高斯噪声(nr ∼ N(0, σ²r))和均匀噪声(nq ∼ U(0, plsb))【2】。因此,像素的最终输出为:

p n = G p d + n r + n q p_n = Gp_d + n_r + n_q pn=Gpd+nr+nq
(3)

虽然还有额外的噪声来源(如光子噪声和暗电流),但我们只对读取噪声和量化噪声建模,因为它们是我们系统中的主要噪声源。最后,探测器在最大测量值pmax处发生饱和。饱和在网络训练过程中会产生问题,因为饱和测量相对于掩模可训练参数的梯度为零。为避免这种消失梯度问题,我们使用了一个具有小正斜率的剪切函数,在饱和区域中具有较小的斜率:

p f = { p n p n ≤ p m a x α ( p n − p m a x ) + p m a x p n > p m a x p_f = \begin{cases} p_n & p_n \leq p_{max} \\ \alpha(p_n - p_{max}) + p_{max} & p_n > p_{max} \end{cases} pf={pnα(pnpmax)+pmaxpnpmaxpn>pmax
(4)

其中,α是一个小的正值。

pf是自由形态像素的最终输出,作为推理网络的输入,如图3所示。上述传感器模型对自由形态像素的最终“形状”产生了重大影响。例如,探测器的有限动态范围迫使自由形态像素“张开”来测量足够的光以克服测量噪声。在补充材料中,我们展示了如果不将上述传感器模型整合到训练过程中,获得的自由形态像素性能会较差。

4. 一个示例任务

我们从一个合成示例开始对自由形态像素进行实验评估。该任务是计算图像中的斑块数量,这类似于涉及物体计数的实际任务,例如人数或车辆数量的估计。图4(a)显示了一个包含10个斑块的图像。在每张生成的图像中,斑块的数量从0到10不等,并且每个斑块的随机位置、亮度和大小(在一定范围内)也是随机的。为了模拟遮挡效果,斑块可以部分重叠。此外,我们通过将每张图像与一个平滑的正弦函数相乘(其参数随机选取)来模拟局部照明变化。我们合成了一组1,000,000幅用于训练的图像、100,000幅用于验证的图像和250,000幅用于测试的图像。

我们训练了极简相机(mincams)来计算斑块数量,使用的自由形态像素数量从1个到128个,按2的幂次增加。传感器模型的参数选择类似于真实光电探测器的参数。推理网络包含2个隐藏层,每层128个单元,激活函数为Leaky ReLU。每个极简相机的掩模初始化为均匀噪声U(0.08, 0.12),网络通过最小化交叉熵损失,并使用Adam优化器【19】进行训练。

我们将极简相机的性能与传统相机进行对比,其中传统相机的输出作为推理网络的输入,且该推理网络的结构与极简相机相同。我们将这种传统相机和推理网络的组合称为基准相机。随着我们降低基准相机的分辨率,每个像素简单地集成了更大的方块区域内的光。换句话说,基准相机可以被视为一个具有固定掩模的极简相机,其中每个掩模都是一个盒形函数。

在这里插入图片描述

图4(b)显示了具有4个自由形态像素的极简相机的学习结果。这些自由形态像素在计数斑块任务上达到了0.71的均方根误差(RMSE),与32×32基准相机的性能相当(见图4©)。这意味着像素数量减少了256倍。这个玩具示例展示了,在有足够的训练数据情况下,自由形态像素能够在轻量级任务上使用数量级更少的像素获得高性能。


5. 相机架构

在这里插入图片描述

图5(a)显示了我们设计并制造的极简相机的原型。它总共有24个自由形态像素。这24个自由形态像素的掩模被打印在一张透明胶片上,使用喷墨打印机打印。所有的掩模可以通过简单地将新的透明胶片插入相机外壳中的插槽来更换【3】。每个掩模的尺寸为16×16毫米²,放置在距探测器11.4毫米的位置;这对应于每个自由形态像素的视野为70°×70°。

每个探测器都是一个光电二极管(Hamamatsu S9119-01),24个探测器的阵列被布置在一个定制设计的成像板上,正面如图5(b)所示,背面如图5©所示。每个探测器的输出连接到一个跨阻放大器上,将探测器的光电流转换为电压。24个自由形态像素的电压经过多路复用器传递到微控制器(STM32WB5MMG),该微控制器执行A/D转换,然后通过蓝牙低能(BLE)无线传输测量值到远程接收器。一个传统相机(Basler daA1920-160uc)带有一个3毫米镜头,连接在极简相机的中央。此相机仅用于捕获视频,以训练极简相机的掩模,并用于与不同分辨率的基准相机进行性能比较。

由于极简相机仅生成少量测量结果,因此它在读取和无线传输过程中消耗的功率非常少。这使得我们能够使原型完全自供电。如图5(a)所示,相机的四面都连接了一个太阳能板(PowerFilm MP3-37),以从照射到其上的光线中收集能量。由于相机所受的光照会随时间波动,太阳能板连接到一个88mF的超级电容器上(见图5©)。在室内环境下,这些太阳能板收集的能量足以为相机供电,无需电池或外部电源。
在这里插入图片描述
对比注意力监督调整 (CAST):给定一张图像(左上),我们计算一个显著性图(左下),我们用它来生成查询和关键裁剪及其相应的显著性图。我们分别通过编码器网络(蓝框)和 Momentum 编码器的正向传递来获得查询和关键特征表示。通过对比损失,我们将 query 和 key crop 的表示形式拉在一起,同时将 query 表示形式与动态队列中的其他表示形式分开。我们将键裁剪中的显著区域通过相同的动量编码器,并计算查询和掩码键表示之间的点积。然后,我们计算它相对于最后一个编码器卷积层的梯度,并权衡前向激活映射以获得 Grad-CAM 映射。最后,我们添加了一个注意力损失,鼓励 Grad-CAM 查看查询裁剪中的所有显着图像区域。完全自供电模式下的极简相机。原型可以完全由落在它上面的光线供电。在光线充足的室内环境中,它可以以每秒 24 帧的速度读取和无线传输 30 个像素的测量值。在这个演示中,每个像素的蒙版的透射率是均匀的。在像素阵列上移动一张黑色片材,无线接收的测量值显示在远程主机上,如下所示。请观看补充视频。图 6:完全自供电模式下的极简相机。原型可以完全由落在它上面的光线供电。在光线充足的室内环境中,它可以以每秒 24 帧的速度读取和无线传输 30 个像素的测量值。在这个演示中,每个像素的蒙版的透射率是均匀的。在像素阵列上移动一张黑片,无线接收的测量器图 6:完全自供电模式下的极简相机。原型可以完全由落在它上面的光线供电。在光线充足的室内环境中,它可以以每秒 24 帧的速度读取和无线传输 30 个像素的测量值。在这个演示中,每个像素的蒙版的透射率是均匀的。在像素阵列上移动一张黑色片材,无线接收的测量值显示在远程主机上,如下所示。请观看补充视频。

图6展示了相机在完全自供电模式下运行。在此演示中,照射到相机四侧的环境光强约为600勒克斯。相机能够以每秒30帧的速度读取并无线传输24个像素的测量值。它可以通过简单地降低帧率,在较低光照条件下继续运行。需要提到的是,目前相机的固件还远未优化。通过进一步优化功率效率,该相机能够在更低的光照条件下运行。在我们的轻量级视觉实验中,我们将相机连接到台式数据采集系统,而不是使用自供电模式,因为这种配置使得硬件调试和与训练相机的同步更容易。

6. 轻量级视觉:实验

我们使用相机原型对自由形态像素在各种轻量级视觉任务中的表现进行了评估。

6.1 工作空间监控

在这里插入图片描述

在第一个应用中,我们使用极简视觉来监控室内空间。考虑图7(a)所示的工作空间。在这种场景中,人们进入/离开空间,在房间中移动并占据不同的区域。我们的目标是通过计数房间中的人数(0到8人),确定哪些区域被占用,并检测门是否打开来监控房间。随着人们在空间中的移动,他们相互遮挡以及遮挡场景的不同部分,使得上述任务更加具有挑战性。此外,随着时间推移,房间的照明可能会显著变化。我们使用训练相机捕获了一个小时的视频【4】来生成一个可以完成所有上述任务的极简相机。

该视频被分为连续的40分钟训练、10分钟验证和10分钟测试段。在视频的每一帧中,任务的真实标签都得到了标注。

我们通过训练极简相机网络来生成自由形态像素,如第3节所述。在图7(b)中,我们绘制了模拟极简相机和不同像素数量的基准相机的人员计数性能。使用2个自由形态像素的极简相机实现了0.68的均方根误差(RMSE),其性能接近64×64基准相机。这意味着像素数量减少了2048倍。用于构建极简相机的掩模(每个任务2个)如图7©所示。该相机的性能见图7(d)表中的前四行。在图7(a)的四幅图像中,蓝色框显示了系统的输出,黄色框显示了真实标签。图7(d)还展示了我们使用4、8和16个自由形态像素进行人员计数的性能。请参见补充材料中的视频演示以及后处理细节。

我们现在说明为什么典型的极简相机无法捕获足够的视觉信息来识别面部。当前最先进的视觉系统在传统图像上取得了非常高的面部识别率(大于98%)【5,11,29,39】。我们使用专为人员计数设计的16个自由形态像素,重新训练了推理网络,在CelebA数据集【23】的一个子集上进行面部识别,该数据集包含100个人的2751张图像。在此仿真中,面部被缩放以覆盖极简相机的整个视野,并且每张图像都加入了少量噪声和随机增益。训练完成后,极简相机的识别率为2.0%,这表明在任何实际场景下,它都无法进行有意义的面部识别。虽然这并不能证明极简相机绝对能保护隐私,但它强烈支持了我们关于无法从少量测量值中可靠恢复个人身份的推论。

6.2 房间照明估计

现代建筑正朝着优化照明系统的方向发展,以减少其能源消耗,从而减少碳足迹。在此背景下,能够自供电的极简相机可以非常有效地估算房间中灯光的“状态”。结合人员计数功能,照明估计相机可以提供智能优化照明所需的确切测量值。考虑图8(a)所示的场景,场景中有三盏落地灯和两排顶灯。我们的目标是使用极简视觉来确定这五盏灯中哪几盏是打开的,尽管灯光对相机是不可见的。因此,必须根据房间的阴影来推断灯光状态,甚至在人们在房间中移动并阻挡部分区域时也是如此。我们捕捉了场景的30分钟视频用于训练和测试。通过放置在场景中的鱼眼相机直接查看灯光,获得了真实标签(见图8(b))。
在这里插入图片描述

我们使用标记过的视频,通过最小化每盏灯的交叉熵损失来训练极简相机,以确定房间的照明状态。图8©展示了训练过程中两个自由形态像素的演变。每个像素都初始化为均匀噪声,其形状在训练过程中逐渐显现出来。图8(d)比较了极简相机与基准相机的性能;一个12×12基准相机的性能与16个自由形态像素的极简相机相当。我们制造了8个自由形态像素,它们能够以94.0%的准确率估计房间的照明状态(所有五盏灯的状态)。图8(e)展示了相机的输出与真实标签的比较。请参阅补充视频。

6.3 交通监控

极简相机可以无需电缆或外部电源,直接安装在路灯或建筑物上用于监控交通。图9(a)中的任务是估算双向交通的平均速度(左侧和右侧)。在这个系统中,极简相机使用其像素测量值在1秒内的时间序列来完成任务。推理网络输出两个值:左右方向的交通速度(单位:英里每小时)。我们通过捕捉场景一天的视频并随机提取5分钟的片段用于验证和测试,收集了训练数据。真实标签通过使用现成的物体检测器【18】处理捕捉到的视频来跟踪每辆车。
在这里插入图片描述

图9(b)展示了极简相机与基准相机的性能比较。我们制造了8个自由形态像素,如图9©所示,这些像素能够以2.30英里每小时的均方根误差(RMSE)估算左侧和右侧的交通速度。请参阅补充材料中的交通监控视频及网络训练和后处理的详细信息。


7. 讨论

我们引入了自由形态像素的概念,并展示了它们如何通过少量测量解决轻量级视觉任务。我们计划在几个方向上扩展我们的工作。首先,我们可以使用空间光调制器(如液晶显示器)替代透明胶片,电子方式设置掩模的形状。这将允许我们根据时间变化自由切换极简相机的功能。这也意味着不同的任务可以进行时间复用,使得可以为每个任务使用更多的自由形态像素。此外,时空掩模控制将允许我们提取更具识别性的视觉特征,尤其是在动态场景中。

虽然我们当前的自由形态像素概念执行的是场景的线性投影,但我们有兴趣将其推广,以便执行更高级的光学映射。例如,通过在掩模中加入透镜,每个像素可以被设计成用预先训练的卷积核来卷积场景。这样的系统也可以被建模为网络的一部分,具有解决更复杂任务的潜力。

通过上述改进,我们相信可以设计出能够完成更广泛任务的极简相机,同时保证隐私保护和自供电。最终,我们的目标是利用极简视觉满足环境感知、野生动物监控、人群和交通分析以及节能等领域的需求。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值