Sparse Tensor-based Point Cloud Attribute Compression
该文运用了稀疏卷积,将多个稀疏卷积堆积成VAE的基本框架;用这个基本框架来做learning-based的方法。值得一提的是,本文是用在属性编码上的,而learning-based用在属性编码上很少。
Ideas
Background
Related work
End-to-End (E2E) Learning
对一个E2E的架构,一般会分为两个编码器:一个为主要的编码器(Main codec)和超先验的编码器(Hyper codec)。
在超先验编码器中,它会被Hyper Encoder提取先验信息,之后用Hyper Decoder来解码得到main codec的均值与方差 ( μ i , σ i ) (\mu_i,\sigma_i) (μi,σi)。
Sparse convolution
要解决的是对稀疏数据进行更有效的特征提取问题。我们知道,点云是具有稀疏性的,如果运用传统的卷积计算,花销势必会很大。因此,人们使用稀疏卷积来有效地计算稀疏数据,而并非对图片像素点(2D)和空间的体素点一一扫描。[1]
Quantization and Rate-Distortion
量化的粗糙程度决定了最终模型表现的好坏(即失真 D D D的多少)。而码率 R R R直接决定了量化的粗糙程度。
Model
Definition
首先需要定义一个Sparse Tensor: { C → , F → } \{\overrightarrow{\mathbf{C}}, \overrightarrow{\mathbf{F}}\} {C,F}。其中, C → = { ( x i , y i , z i ) ∣ i ∈ [ 0 , N − 1 ] } \overrightarrow{\mathbf{C}}=\left\{\left(x_{i}, y_{i}, z_{i}\right) \mid i \in[0, N-1]\right\} C={(xi,yi,zi)∣i∈[0,N−1]}、 F → = { ( R i , G i , B i ) ∣ i ∈ [ 0 , N − 1 ] } \overrightarrow{\mathbf{F}}=\left\{\left(R_{i}, G_{i}, B_{i}\right) \mid i \in[0, N-1]\right\} F={(Ri,Gi,Bi)∣i∈[0,N−1]}
在该模型框架中,熵编码模型将会被使用。而针对熵编码模型,作者沿用了[2]中的先验知识,以提升熵编码模型的表现。
Reference
[1] https://towardsdatascience.com/how-does-sparse-convolution-work-3257a0a8fd1
[2] VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR