论文阅读：Differentiable Compound Optics and Processing Pipeline Optimization for End-to-end Camera Desig

最新推荐文章于 2025-01-29 09:59:29 发布

Matrix_11

最新推荐文章于 2025-01-29 09:59:29 发布

阅读量1.3k

点赞数 20

分类专栏：计算摄影与图像处理文章标签：论文阅读

本文链接：https://blog.csdn.net/matrix_space/article/details/136114129

版权

计算摄影与图像处理专栏收录该内容

96 篇文章

订阅专栏

这是一篇发表在 2021 年 ACM TOG 上的文章，TOG 是图形学领域的顶刊，不过也会经常发表一些关于计算成像相关的文章，这篇文章的作者之一是 Felix Heide，普林斯顿大学的一名教授，也是计算成像领域的一个大牛，这个老师主要做一些计算成像相关的工作，尤其是软硬件联合优化这块，这篇文章算是这个老师早期的一个研究工作。

绝大部分现代的成像系统，不管是直接给人眼看的，还是给后端机器视觉用的，都会用到光学镜头，这些光学镜头一般都由多片镜片组成，这些光学镜头需要在像差，制造约束，公差，成本之间取得某种平衡。虽然光学设计与后端任务之间存在复杂的关联性，不过目前的光学镜头都是独立设计的，现有的光学设计工具都是为了最大程度的减小像差，而不是为了最大程度的减小某些任务的损失函数，这种相互独立的设计方式，阻碍了前端硬件设计与后端算法的联合优化，使得系统无法达到联合最优。这篇文章提出了一种优化方法去解决这些限制，文章提出的方法可以将整个光学系统，硬件 ISP 系统以及下游的神经网络，用特定任务的损失函数进行一起优化。为了实现这个目的，文章作者提出一种可学的，可微可导的光学系统，以及交替优化的方式去处理复合函数下不同的待优化变量，包括光学系统，硬件 ISP 以及神经网络的参数。文章提出的方法可以无缝地与现有的光学设计软件比如 Zemax 结合。文章在多个不同的任务上进行了验证，包括自动驾驶中的目标检测任务以及与人眼感知相关的任务，都超越了现有的方法的效果。

这篇文章总结了以下几点贡献：

提出了一个联合端到端的优化框架，这个框架包括了前端的光学系统，真实的芯片系统，ISP 系统以及 CNN 计算机视觉的任务，文章作者借助特定任务的损失函数，对这些系统中的参数进行联合优化。
这个框架与传统的光学设计软件可以很好的结合
文章将现有的光线追迹方法与深度学习结合，构建一个准确的可微的光学系统，这个光学系统不仅仅对小视场有效
文章对光学系统及图像处理系统在人眼感知与下游分析任务做了仿真分析
文章作者基于这个优化框架，构建了 5 个真实的镜头原型，并且在真实的充满挑战的自动驾驶数据集上做了验证

3 Imaging Pipeling Stages

文章将整个成像过程分成 5 个部分，分别是场景，光学系统，sensor，ISP 系统以及下游任务，如下图所示：

整个成像流程

在这里插入图片描述

3.1 Scene representation

文章将 scene 的表示用一个全对焦的 RGB 图像表示

3.2 Compound camera optics

光学系统一般是由多个镜片构成，由特定的参数进行表示，文章假设光学系统的参数为 $\mathcal{P}_{optic}$ ，包括每个镜片的厚度，间距，折射率，面型参数等，文章中假设 $f$ 数是固定的，后焦距也是固定的。

一个光学镜头的样例

在这里插入图片描述

假设场景从无限远处发出光线，到达光学系统，这些光线可以认为是平行光入射，入射角为 $\theta$ ，一个理想的光学系统会将 wavefront 转化成一个球面波，一个焦距为 $F$ 的光学系统，在像面 $F\tan{\theta}$ 处光线会汇聚，这些光线的光程差可以表示成有关出瞳面位置 $\mathbf{p}$ ，像面坐标 $\mathbf{r}$ ，波长 $\lambda$ 以及光学系统 $\mathcal{P}_{optic}$ 的函数 $f_{opd}(\mathbf{p}, \mathbf{r}, \lambda; \mathcal{P}_{optic})$

系统的 PSF 可以表示为：

$PSF_{\lambda}(\mathbf{x}, \mathbf{r}; \mathcal{P}_{optic}) = \left | \int A(\mathbf{p}) e^{i f_{opd}(\mathbf{p}, \mathbf{r}, \lambda; \mathcal{P}_{optic}) } e^{i 2 \pi \mathbf{p} \mathbf{x}} d\mathbf{p} \right |^{2} = f_{optic}(\mathbf{r}, \mathcal{P}_{optic}) \tag{1}$

$\mathbf{x}$ 表示 PSF 的空间坐标，PSF 是和空间位置有关的一个量，给定一个场景图像 $\mathbf{I}_{scene}$ ，通过光学系统后的图像可以表示为：

$\mathbf{I}_{optic}(x, y) = \mathbf{I}_{scene}(x, y) \ast f_{optic}(\sqrt{x^2+y^2}, \mathcal{P}_{optic}) \tag{2}$

如果每个像素点都用这种卷积的方式计算，那运算量会很大，所以实际建模的时候，会把图像分成若干个 patch，每个 patch 内的 PSF 可以认为是类似的，这样的卷积运算量会小很多。

3.3 Sensor model

sensor 光电转换过程

在这里插入图片描述

文章中的 sensor 模型依赖于一个可微可导的对 color filter arrays (CFA) 的近似，通过光学系统的图像为 $\mathbf{I}_{optic}$ ，通过 sensor 模型之后，得到 sensor RAW 图 $\mathbf{I}_{raw}$ ，文章中用一个广泛采用的 EMVA1288 模型对 sensor 进行仿真建模，文章首先通过二次插值的方法将一个 RGB 三通道的 $\mathbf{I}_{optic}$ 图像插值成一个 50 通道的 $\mathbf{I}_{ms}$ 多光谱图像，然后利用泊松分布对每个光谱到达 sensor 的光子进行建模：

$\mu_{p}(x, y, \lambda) = \mathbf{I}_{ms}(x, y, \lambda) \cdot \frac{\pi A t \lambda^{2}}{hc(1+(2N)^2)} \tag{3}$

其中， $A$ 是像素面积， $t$ 是曝光时间， $N$ 是 F-number， $h$ 是普朗克常数， $c$ 是真空中的光速。

光子到达 sensor 之后，会进行光电转换，光电转换可以由光电转换效率表示， $\eta(x, y, \lambda) = e(x, y, \lambda)/p(x,y,\lambda)$ ， $e(x,y,\lambda)$ 表示数量为 $p(x,y,\lambda)$ 的光子到达 sensor 的时候，转换成电子的数量。除了入射光子引起的光电转换，sensor 内部也有电子产生，包括暗噪声 $n_{d} \sim \mathcal{N}(\mu_{d}, \sigma_{d})$ ，以及暗电流引起的电子，暗电流与温度有关，分布满足如下关系：

$\mu{I} = \mu_{I,ref} \cdot 2^{(T-T_{ref})/T_d} \cdot t_{exp} \tag{4}$

其中， $\mu_{I,ref}$ 表示某个标准参考温度下测量得到的平均电流， $t_{exp}$ 表示曝光时间，所有的电子会经过模数转换，量化得到最终的数字信号，这个过程需要考虑量化误差 $n_{q}$ ，sensor 的满阱容量 $e_{sat}$ 还有增益放大系数 $K$
最终的 sensor RAW 图可以表示成：

$\mathbf{I}_{raw}(x, y) = b + n_{q} + K \min(e_{sat}, n_d + n_{I} + \sum_{\lambda} p(x, y, \lambda)\mu(x,y,\lambda)) \tag{5}$

3.4 Hardware imaging pipeline stages

得到 $\mathbf{I}_{raw}$ 之后，会经过一个 ISP 系统，文章中用到的硬化的 ISP 系统是一个商用公开的传统流程，ARM Mali C71，一般的模块，包括 AWB, 去马赛克，降噪，tone-mapping，颜色转换等都包括。

3.5 Software image processing and analysis

如果是软件的图像处理或者分析模型，现在基本都是用深度学习来实现。

4 Compound Optics Pipeline Optimization

接下来，文章介绍如何将光学系统与其他模块进行联合优化

4.1 Compound optics modeling

首先是光学系统的建模，传统的光学成像都是基于光线追迹的方式，这篇文章利用一个深度神经网络作为代理模型，来替代复杂的光线追迹过程：

$(\tilde{\varphi}(r), \tilde{\upsilon}(r)) = \tilde{f}_{optic}(r, \mathcal{P}_{optic}; \mathcal{W}_{optic}) \tag{6}$

$\tilde{\varphi}(r), \tilde{\upsilon}(r)$ 分别表示估计的 PSF 和渐晕系数，这个神经网络如下图所示，包括了几层全连接层 MLP 以及若干卷积层。

代理网络结构

网络会分别输出一个 RGB 三通道的 PSF 以及对应的通道渐晕系数，三通道的 PSF 已经做了归一化，最终实际的 PSF 是由归一化的 PSF 乘以对应的渐晕系数，整个网络的优化目标为：

$\hat{\mathcal{W}}_{optic} = \argmin_{\mathcal{W}_{optic}} \sum_{i,j}^{M, K}\mathcal{L}_{optic}(\tilde{f}_{optic}(r^{j}, \mathcal{P}_{optic}^{i}; \mathcal{W}_{optic}), \mathbf{O}^{(i,j)}) \tag{7}$

$\times 10^{4}$ 表示光学设计的数量， $K = 13$ 表示每个光学设计需要考察的 PSF 数量，也就是对应视场的 PSF。为了构造训练数据，文章作者借助了商业光学设计软件 Zemax，为了提升光学设计的公差鲁棒性，文章利用 Zemax 进行公差敏感度分析，然后找到合理的公差范围，在这个范围内生成数千个光学结构，所以网络结构的输入是光学结构参数和视场的极坐标，输出是预测的 PSF 以及渐晕系数，最终的损失函数为：

$\mathcal{L}_{optic}(\tilde{\varphi}, \tilde{\upsilon}, {\varphi}^{*},{\upsilon}^{*}) = \mathcal{L}_{1}(\tilde{\varphi}, {\varphi}^{*}) + \mathcal{L}_{1}(\mathcal{F}(\tilde{\varphi}), \mathcal{F}({\varphi}^{*})) + \mathcal{L}_{1}(\tilde{\upsilon}, {\upsilon}^{*}) + \sum_{d} \mathcal{L}_{1}(\nabla_{d}\tilde{\varphi}, \nabla_{d}{\varphi}^{*}) \tag{8}$

$\mathcal{F}$ 表示傅里叶变换， $\nabla_{d}$ 表示差分运算。

4.2 Differentiable sensor and ISP model

接下来是对 sensor 与 ISP 的建模，sensor 建模文章用上面介绍的 sensor 模型表示， $\mathbf{I}_{raw} = f_{sensor}(\mathbf{I}_{opitc})$ ，得到 $\mathbf{I}_{raw}$ 之后，接下来是进入 ISP 流程，文章讨论了两种情况，一种是 hardware ISP，另外一种是 software ISP，hardware ISP 每个模块都已经硬化了，只有模块中的一些超参数可以调节，而 software ISP 一般都是用网络来表示，可以调节的自由度要高很多。

Hardware ISPs，对于 hardware ISP，为了实现可微可导，文章也是先用一个代理模型必然 U-Net 去模拟 hardware ISP 的整个流程，同时把可调节的超参作为网络的输入， $\mathbf{I}_{isp} = \tilde{f}_{isp}(\mathbf{I}_{raw}, \mathcal{P}_{isp}; \mathcal{W}_{isp})$ ， $\mathcal{W}_{isp}$ 表示可训练的参数，最终的优化函数可以表示成如下所示：

$\hat{\mathcal{W}}_{isp} = \argmin_{\mathcal{W}_{isp}} \sum_{i=1}^{M}\mathcal{L}_{isp}(\tilde{f}_{isp}(\mathbf{I}^{i}, \mathcal{P}_{isp}^{i}; \mathcal{W}_{isp}), \mathbf{O}^{(i)}) \tag{9}$

文章用 U-Net 作为代理模型，模型的输入是 RAW 图和各个模块的超参，每个超参最终会变成等大的 feature map 送进网络，训练得到的网络，最终作为整个流程的一部分，集成进 pipeline 中， $\mathbf{I}_{isp} = \tilde{f}_{isp}(\mathbf{I}_{raw}, \mathcal{P}_{isp}; \mathcal{W}_{proxy})$ 。

Software ISPs 如果是一个软仿的 ISP，可以直接用一个网络来拟合整个过程， $\mathbf{I}_{nn} = f_{nn}(I_{raw}, \mathcal{P}_{nn})$

5 Joint Optimization

5.1 Fully differentiable imaging pipeline

最终完整的端到端联合的目标函数可以表示为：

$\mathbf{O} = \tilde{f}_{isp}(f_{sensor}(\tilde{f}_{optic}(\mathbf{I}, \mathcal{P}_{opitc}; \mathcal{W}_{opitc})), \mathcal{P}_{isp}; \mathcal{W}_{isp}) \tag{10}$

其中 $\mathbf{I}$ 表示输入的 RGB 图像， $\mathbf{O}$ 表示输出图像，如果用 software ISP 代替 Hardware ISP，那么整个联合优化目标函数可以写成：

$\mathbf{O} = \tilde{f}_{nn}(f_{sensor}(\tilde{f}_{optic}(\mathbf{I}, \mathcal{P}_{opitc}; \mathcal{W}_{opitc})); \mathcal{P}_{nn}) \tag{11}$

如果后面再接一个计算机视觉任务，比如目标检测，可以在整个链条最外端再接一个模块，比如目标检测模块，文章给出了如下的示例目标函数：

$\mathbf{O} = f_{nn}( \tilde{f}_{isp}(f_{sensor}(\tilde{f}_{optic}(\mathbf{I}, \mathcal{P}_{opitc}; \mathcal{W}_{opitc})), \mathcal{P}_{isp}; \mathcal{W}_{isp}) ; \mathcal{P}_{nn}) \tag{12}$

这种情况下， $\tilde{f}_{isp}, \tilde{f}_{optic}$ 这两个代理模型是训练过的，代理模型本身的参数 $\mathcal{W}_{isp}, \mathcal{W}_{opitc}$ 是固定的，所需要优化的参数主要是 $\mathcal{P}_{opitc}, \mathcal{P}_{isp}, \mathcal{P}_{nn}$ ，最终的优化目标可以写成：

$\{ \mathcal{P}_{opitc}^{*}, \mathcal{P}_{isp}^{*}, \mathcal{P}_{nn}^{*} \} = \argmin_{\mathcal{P}_{opitc}, \mathcal{P}_{isp}, \mathcal{P}_{nn}} \sum_{i=1}^{M} \mathcal{L}_{task}(\mathbf{O}^{i}, \mathbf{T}^{i}) \tag{13}$

5.2 Proximal Compositional Optimization

涉及多个模块的联合端到端优化是一个非常复杂而且挑战的问题，这篇文章介绍了一种可行的优化方法。

Initialization，首先是初始化，文章对不同模块采用了不同的初始化策略，对于光学系统，采用了均匀分布的初始化，对于 hardware ISP 中的优化参数，也是采用均匀分布的随机初始化，对于 software ISP 中的参数，文章先在仿真数据上进行预训练，将预训练的参数作为初始化。
Compositional optimization，然后在优化过程中，对每个模块的参数先单独进行优化
Proximal regularization，在优化过程中，为了避免某个模块优化太快，导致其它模块难以优化，文章加入了正则项
Fine-tuning，最后一步是整体 fine tune，所有模块的参数一起参与优化
优化过程如下所示：

在这里插入图片描述