1. 主要思想
通过什么方式,解决了什么问题
要解决的问题
尽管规则的RGB和激光雷达图像之间存在相似性,但我们发现激光雷达图像的特征分布在不同的图像位置会发生显著的变化。使用标准卷积来处理这样的激光雷达图像是有问题的,因为卷积滤波器拾取仅在图像的特定区域中活跃的局部特征。因此,网络容量未得到充分利用,分割性能下降。
如何解决
利用提出的空间自适应卷积进行:
标准卷积使用相同的权重来处理所有空间位置的输入要素,而不考虑输入。因此本文采用自适应卷积可以根据输入和图像中的位置来改变权重。
2. 具体方法
说明怎么解决的,具体设计是什么, 有什么启发性思考(作者的创新点)
具体怎么做?
- SAC的过程是核心:SAC有四种变形,这里只记录其中一种 SAC-SK 如上图结构中所示的那样
- unfold操作就是 im2col操作;也就是将每个像素周围的kk的值铺平展开,展开成Ik*k 通道数;
- 其实就是对周围k*k个点进行注意力操作,然后再提取特征,再进行后续的分割预测;
- 所以是Spatially-Adaptive Convolution (SAC): 空间自适应的;
def SAC_SK(input_feature, coordi_map):
# Note: Pseudo code for SAC-SK.
unfold_feature = unfold(input_feature, kernel_size=K,
padding=K//2) # (N, C*K*K, H, W)
attention_map = Conv_attention7x7(coordin_map) # (N, K*K, H, W)
attention_map = attention_map.repeat(1, C, 1, 1) # (N, C*K*K, H, W)
input_feature = unfold_feature * attention_map # (N, C*K*K, H, W)
feature = Conv_feature1x1(input_feature) # (N, C, H, W)
feature = Conv_feature3x3(feature) # (N, C, H, W)
output_feature = feature+input_feature # (N, C, H, W)
return output_feature # (N, C, H, W)
3. 实验支撑
记录一些关键实验的结论分析,具有启发性的实验和结论
4. 总结启示
针对中心思想和实验结论的总结和扩展思考
扩展思考 : 也就是用自己已有的知识或者自己的“土话”,重新理解paper(费曼学习法的精髓-便于记忆和举一反三的应用)
- 本文的空间(周边)自适应卷积模块的设计很值得学习,通过注意力方式实现自适应;而不是设计真正的自适应卷积;
- 多种自适应设计也值得借鉴
- 整体思路就是最大程度地提取点的临近特征,而且让网络自己学如何提取—自适应;
5. 相关文献
主要的比较贴近的文献,关键性文献