NERI阅读

image.png
IEEE2024

贡献

1.利用距离图像的隐式神经表示来压缩LiDAR 点云序列。
2.将系列范围图像拟合到神经网络上,将其信息集中到单个比特流中以实现紧凑的表示。 (NeRV)
3.引入时空位置编码和分段线性量化来提高性能。

具体过程

在编码过程中,输入的LiDAR点云序列首先通过3D到2D距离图像投影映射到一组距离图像。
通过最小化 NeRI 生成的距离图像和原始输入距离图像之间的差距,对特定LiDAR 序列进行NeRI网络拟合。
LiDAR序列的基本特征隐式嵌入NeRI网络中,然后其参数将被量化并编码为比特流。
image.png
1.NeRV证明了时间t可映射到高维空间,作为神经网络fθ的输入,从而得到视频帧:vt=fθ(t)。
2.同时激光雷达传感器的轨迹通常是已知的,可使用各时刻激光雷达姿态作为先验促进处理。
同时输入LiDAR传感器的时间索引t、空间姿态信息(平移Tt=(x,y,z)和旋转(Rt=α,β,γ))。
空间平移与旋转是相对于全局坐标系的,表示了激光雷达的位置和朝向。
将三个位置编码函数的输出cat作为最终输入,预测与点云输入相对应的一系列距离图像。
由网络表达式可见,本方法需要逐场景训练。
image.png
yt是真实投影距离图像,fθ是网络预测的距离图像。

量化

将网络参数量化为低比特精度,可减小比特率消耗。但直接均匀量化(UQ)会导致极大的量化误差。
考虑到参数的钟形分布,本文使用分段线性量化(PWLQ),将量化范围[-m,m]分割为两个对称区域
R1=[−p,p],R2=[−m,−p)∪(p,m],然后执行b位量化。
image.png
量化之后使用哈夫曼编码进行无损的压缩。

实验

使用SemanticKITTI中的序列#00、#02和#08进行训练和测试。

对比实验

将MLP中隐藏层的维度调整为16、32、64、128、194和256,可获得具有不同参数大小的模型,并将它们量化到固定的8位深度以产生不同的比特率。
image.png
image.png
NeRI能达到更高的性能,且解码速度更快。虽然编码速度比显式表达方法更慢,但比其余隐式方法更快。

消融实验

对{t,Tt,Rt}进行时空位置嵌入以形成网络的输入。固定它们的整体嵌入长度(例如 160),改变为每个部分分配不同的长度。
如表3所示,使用160/0/0(即无空间平移和旋转)会产生最差的结果,使用 0/80/80(即无时间索引)也会导致性能较差。证实了所有这三项的效率。
image.png
使用更大的参数大小有更高的重建精度。在相同的比特深度下,UQ的bpp比PWLQ的bpp更高。
随比特深度下降,UQ的性能急剧下降,而PWLQ的性能下降更为平缓。
UQ量化的性能波动明显,难以确定最优配置,而PWLQ量化更加鲁棒性。
image.png

代码

模型整体部分使用的都是NeRVblock。
代码在dataloader的时候把三维点云转换成范围图像,在train的时候单纯当作图像进行处理,只有在test的时候才会把图像转会点云算psnr进行记录。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值