NERI阅读

最新推荐文章于 2024-10-20 22:21:06 发布

是大杨杨啊

最新推荐文章于 2024-10-20 22:21:06 发布

阅读量260

点赞数 4

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_49130177/article/details/140129868

版权

IEEE2024

贡献

1.利用距离图像的隐式神经表示来压缩LiDAR 点云序列。
2.将系列范围图像拟合到神经网络上，将其信息集中到单个比特流中以实现紧凑的表示。 (NeRV)
3.引入时空位置编码和分段线性量化来提高性能。

具体过程

在编码过程中，输入的LiDAR点云序列首先通过3D到2D距离图像投影映射到一组距离图像。
通过最小化 NeRI 生成的距离图像和原始输入距离图像之间的差距，对特定LiDAR 序列进行NeRI网络拟合。
LiDAR序列的基本特征隐式嵌入NeRI网络中，然后其参数将被量化并编码为比特流。

1.NeRV证明了时间t可映射到高维空间，作为神经网络fθ的输入，从而得到视频帧：vt=fθ(t)。
2.同时激光雷达传感器的轨迹通常是已知的，可使用各时刻激光雷达姿态作为先验促进处理。
同时输入LiDAR传感器的时间索引t、空间姿态信息(平移Tt=(x,y,z)和旋转(Rt=α,β,γ))。
空间平移与旋转是相对于全局坐标系的，表示了激光雷达的位置和朝向。
将三个位置编码函数的输出cat作为最终输入，预测与点云输入相对应的一系列距离图像。
由网络表达式可见，本方法需要逐场景训练。

yt是真实投影距离图像，fθ是网络预测的距离图像。

量化

将网络参数量化为低比特精度，可减小比特率消耗。但直接均匀量化(UQ)会导致极大的量化误差。
考虑到参数的钟形分布，本文使用分段线性量化(PWLQ)，将量化范围[-m,m]分割为两个对称区域
R1=[−p,p],R2=[−m,−p)∪(p,m]，然后执行b位量化。

量化之后使用哈夫曼编码进行无损的压缩。

实验

使用SemanticKITTI中的序列#00、#02和#08进行训练和测试。

对比实验

将MLP中隐藏层的维度调整为16、32、64、128、194和256，可获得具有不同参数大小的模型，并将它们量化到固定的8位深度以产生不同的比特率。

NeRI能达到更高的性能，且解码速度更快。虽然编码速度比显式表达方法更慢，但比其余隐式方法更快。

消融实验

对{t,Tt,Rt}进行时空位置嵌入以形成网络的输入。固定它们的整体嵌入长度（例如 160），改变为每个部分分配不同的长度。
如表3所示，使用160/0/0（即无空间平移和旋转）会产生最差的结果，使用 0/80/80（即无时间索引）也会导致性能较差。证实了所有这三项的效率。

使用更大的参数大小有更高的重建精度。在相同的比特深度下，UQ的bpp比PWLQ的bpp更高。
随比特深度下降，UQ的性能急剧下降，而PWLQ的性能下降更为平缓。
UQ量化的性能波动明显，难以确定最优配置，而PWLQ量化更加鲁棒性。