©PaperWeekly 原创 · 作者 | 张一帆
学校 | 中科院自动化所博士生
研究方向 | 计算机视觉
以图像为例,其最常见的表示方式为二维空间上的离散像素点。但是,在真实世界中,我们看到的世界可以认为是连续的,或者近似连续。于是,可以考虑使用一个连续函数来表示图像的真实状态,然而我们无从得知这个连续函数的准确形式,因此有人提出用神经网络来逼近这个连续函数,这种表示方法被称为“隐式神经表示“ (Implicit Neural Representation,INR)。
举几个例子,图像、视频、体素,都能用 INR 来表示,其数学表达如下:
对于图像,INR 函数将二维坐标映射到 rgb 值。
对于视频,INR 函数将时刻 t 以及图像二维坐标 xy 映射到 rgb 值。对于一个三维形状,INR 函数将三维坐标 xyz 映射到 0 或 1,表示空间中的某一位置处于物体内部还是外部。当然还有其他形式,如 NERF 将 xyz 映射到 rgb 和 sigma。总而言之,这个函数就是将坐标映射到目标值。一旦该函数确定,那么一个图像/视频/体素就确定了。
本文挑选了近几年来 INR 用于 2D 图像的文章,对其发展做一个大致的介绍。
SIREN
论文标题:
Implicit Neural Representations with Periodic Activation Functions
论文链接:
https://arxiv.org/abs/2006.09661
收录会议:
NeurIPS 2020
项目地址:
https://vsitzmann.github.io/siren/
虽然 INR 非常的有效而且与传统方法相比有很多好处,但是目前的网络架构不能有效的非常详细的对信号进行建模,而且无法对信号的高阶导数进行求解,而高阶导数又是求解偏微分方程的必经之路,这