LU-Net 72.7(car) 46.9(ped) 46.5(cyclist) 55(avg)
1. 主要思想
通过什么方式,解决了什么问题
前人分析只有两个通道也可以进行分割预测: However, the analysis presented in [2] showed that feeding a 2-channel range-image with only the reflectance and depth information to a U-Net architecture achieves comparable results to the state of the art.
本文用UNet对前视图投影进行分割预测,但是本文主要的改进是添加了一个分支,这个分支是用过计算前视图的每个像素周围8个点与该像素点的关系,并且用MLP进行编码,然后在与instensity, range通道相加,再用MLP进行编码,得到N个通道,然后进行Unet卷积操作。
2. 具体方法
说明怎么解决的,具体设计是什么, 有什么启发性思考(作者的创新点)
问题:
- 在进行前视图映射时, 人为地定义特征(x,y,z,r,i)可能不能很好地表征局部信息;
- 对比其他映射方式, range-image方式(也就是前视图方式),提供了轻量的结构性的以及密集地表示点云.
- RIU-Net论文表示了 仅仅用depth和reflectance(也就是距离和反射率)信息既可以得到与最佳效果相近的结果.
- 作者受到Local Point Embedder【11】论文的启发,提出了一个提取局部信息的模块;
- 这个提取局部特征模块,在网络输入Unet之前,也就是数据预处理的时候进行的
整体框架结构
提取局部信息模块
-
- 将该点附近8个点的值与该点作差,如果空的点,差=0
-
- 将得到的差值,用MLP进行编码,再用maxpooling下采样,在于depth和reflectance融合; 注意对于每个cell进行统一的MLP,则就是conv1x1.
Unet结构
- 将得到的差值,用MLP进行编码,再用maxpooling下采样,在于depth和reflectance融合; 注意对于每个cell进行统一的MLP,则就是conv1x1.
3. 实验支撑
记录一些关键实验的结论分析,具有启发性的实验和结论
4. 总结启示
针对中心思想和实验结论的总结和扩展思考
扩展思考 : 也就是用自己已有的知识或者自己的“土话”,重新理解paper(费曼学习法的精髓-便于记忆和举一反三的应用)
- 利用了点云的周边信息的, 并且让网络学习特征编码
- 我们可以在这个周边信息上做文章,如:采集附近一定范围的信息,对于远处的信息可以不做考虑等
- 前视图方式具有密集,轻量的好处;可以考虑用作物体检测; (专利想法)利用很强的周边信息编码点云检测。
5. 相关文献
主要的比较贴近的文献,关键性文献
TODO List
- 论文内容整理
- 源代码阅读,并补充