ZippyPoint: 一种基于学习的特征点提取+二进制描述子，速度提升5倍+，为移动平台提供一种ORB的替代方案...

最新推荐文章于 2024-06-03 09:37:00 发布

Tom Hardy

最新推荐文章于 2024-06-03 09:37:00 发布

阅读量744

点赞数

文章标签：算法 python 计算机视觉机器学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI2Nzg4NjA5OQ==&mid=2247508960&idx=2&sn=7e791441d028022b89ff52693fba6f11&chksm=eafae89cdd8d618a38b93eb1f06b79028a1d87a8b39320b7bf071f4c40b94a101f27d1af6e5d&scene=126&&sessionid=0

版权

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨Realcat

来源丨计算机视觉SLAM

作者来自ETHZ Computer Vision实验室，本文设计了ZippyPoint，它是一个用于特征点提取的网络。与ORB的描述子类似，ZippyPoint得到的也是二进制描述子。该特征点可以获得与基于学习的特征匹配以及视觉定位性能，同时速度提升5倍。

作者推文：ZippyPoint也许为移动平台提供一种BRISK、ORB的替代方案

论文：arxiv.org/abs/2203.03610

本文代码即将开源，笔者将持续关注。

摘要

图1. 基于学习的高精度特征点在匹配时速度很慢，而本文提出的ZippyPoint是一种二进制描述子，速度提升非常明显

更复杂、更强大的神经网络模型的设计显著提升了局部特征检测和描述的技术水平。这些技术进步可以归因于更深的网络、通过自我监督改进的训练方法，或引入新的网络结构，例如用于特征匹配的图神经网络。然而，在追求更高性能的过程中，生成轻量级描述符的高效架构几乎没有受到关注。本文的出发点就是设计一种可用于低功耗低算力的移动平台的特征提取网络。本文设计的ZippyPoint使用了二进制描述子归一化层以及混合精度网络，该特征点可以获得与基于学习的特征匹配以及视觉定位性能，同时速度提升5倍。

基本原理

基线网络

KP2D[5] 网络结构: 整体与SuperPoint类似的编解码结构，编码端4个VGG-style块，解码端接了3路（head），分别对应特征点位置，特征点得分以及描述子；除最后一层以外，每一层都接了一个BN层以及Leaky-ReLU

输入：一张图像

输出：特征点位置 , 描述子以及特征点置信度得分

后续将基于KP2D[5]网络进行优化，得到量化后的二进制描述子。

网络优化/量化

对一个卷积层的量化需要考虑的因素包括：权重精度、特征精度以及是否使用高精度的残差等。当对整个网络进行量化时，多层卷积组合在一起需要考虑的因素将形成一个巨大的参数搜索空间。面对这个问题，穷举策略并不可取。

图2. 将操作划分为macro-block，在(b)中用不同的颜色描述。从第一个上游的蓝色的macro-block，确定最佳量化设置（该配置可以保持网络性能，同时提高网络吞吐量）。然后，穿越到下一个绿色macro-block，并重复这个过程

为缩小搜索空间，本文提出了一种网络层的划分和遍历策略算法，如图2所示。首先，本文将目标网络（即KP2D）的操作划分为宏块（macro-block）。对于每个宏块，定义一个候选量化配置的集合。然后遍历宏块，为每个宏块确定最佳配置。由此可见，这种策略将搜索的复杂性从组合级（每个宏块配置数量的乘积）降低到线性级（每个宏块配置数量的总和）。

具体地，作者将基线网络划分为5个macro-blocks：编码器第一个卷积层，编码器剩余的卷积层，空间缩小层（如池化层），解码器最后一层（即输出层）以及除最后一层剩下的解码器层。

Macro-Block I (First Encoder Convolution)：两种配置，FP以及INT8，作者发现使用INT8可以提升约3FPS，同时可保持性能不下降。作者认为，这是因为输入图像也是用INT8表示的，因此，输入序列的离散化不会造成信息的损失。
Macro-Block II (Encoder Convolutions)：三种配置，INT8, binary (BIN)以及具有高精度残差的二进制(BIN-R)。使用二进制表示可以极大地提到吞吐量，但是性能下降明显；为应对性能下降，本文引入了用于构建高精度残差的INT8表示。
Macro-Block III (Spatial Reduction)：四种配置，average-pooling (Aver.), max-pooling (Max), sub-sampling (Sub.S.)以及一个需要学习的池化操作（INT8表示）。
Macro-Block IV (Decoder Convolutions)：二种配置，INT8以及BIN-R。
Macro-Block V (Final Decoder Convolutions)：二种配置，FP以及INT8。

小结: 若直接将网络第一层与最后一层量化为INT8，则效果下降明显；混合精度网络可以获得精度较高的效果；仅有BIN-R 或INT8的卷积将会使网络陷入次优；对于预测头（head），特征点位置以及得分必须保持是FP，而描述子可以被量化为INT8。

二进制描述子

在描述一幅图像或者图像块时，学习映射（learned mapping）的目的是将一组数据点映射到一个嵌入空间（embedding space）。在这个空间里，相似的数据紧密相连，而不相似的数据则相距甚远。

为了确保稳定的优化，嵌入后的结果一般要归一化，通常使用归一化：

但是对于离散的二进制输出上述归一化形式并不可行（不可微），作者在此处设计了一种归一化的一般化形式：

当以及时，上式与L2归一化等价。

本文假设二进制描述子的归一化等价于具有恒定数量的1。作者从多类别分类问题中获得灵感，将二进制描述子归一化视为在维超立方体中的描述子在维多面体上的投影。这里我翻译成人话就是：一个特征点对应的维描述子中1的个数为（或者说和为）。

这样就可以定义:

作者重新定义了目标函数为如下形式:

402 Payment Required

其中是二进制交叉熵函数，上式可以变为拉格朗日对偶问题进行求解[1][2]，具体过程参见原文。

实验

本文基于TensorFlow实现，使用Larq[3]库用于二进制量化，训练集使用了COCO 2017（同SuperPoint[4]）。

表1. 网络层划分和遍历策略的结果。最终的模型用粗体字表示，且性能表现与基线相当，但运行速度快了5倍。绿色箭头强调了下一阶段使用的配置

注：上述比较中CPU使用的是Apple的M1 ARM芯片；作者对原始的KP2D算法进行了细微调整作为baseline，新基线适配基于块的搜索算法，将Leaky-ReLU替换成hard-swish（效果相当，但是更快）。

表2. 不同归一化层与Sigmoid结合时的效果比较，二进制描述子的归一化层效果提升明显

表3. 将本文提出的ZippyPoint与全精度或二进制描述符相比。ZippyPoint的性能与其他全精度方法相当，而运行速度比其余学习方法近5倍。与人工设计的二进制方法相比，ZippyPoint的表现优势相当突出

表4. AachenV1.1 Day-Night 定位精度与特征匹配速度的比较，ZippyPoint始终优于其他所有的二进制方法

图3. 匹配速度比较：当提取点数相同时，ZippyPoint比SuperPoint快了近14倍

结论

本文基于KP2D设计了一整套加速提取与匹配手段，为适配二进制描述子，作者设计了基于二进制的L2归一化等；为降低网络量化搜索空间，作者引入了基于macro-Blocks的混合精度量化算法。最终得到的ZippyPoint可在图像匹配以及视觉定位任务中取得远超人工设计的二进制描述子的性能，并与SuperPoint接近(白天)，但是速度快了近14倍。

笔者注意到，本文也存在一些遗留问题，如本文针对KP2D设计的一套量化优化方案是否容易迁移到其它特征点提取网络？网络以macro-blocks划分时引入了较多技巧，每个macro-block的选择是否足够？相对于人工设计的混合量化网络，是否有一种通用的混合量化方式可以更好地得到一个优化后的网络...

参考

[1]. B. Amos, V. Koltun, and J. Z. Kolter, “The limited multi-label projection layer,” arXiv, 2019.

[2]. B. Amos and J. Z. Kolter, “Optnet: Differentiable optimization as a layer in neural networks,” in ICML, 2017.

[3]. L. Geiger et al., “Larq: An open-source library for training binarized neural networks,” Journal of Open Source Software, vol. 5, no. 45, p. 1746, Jan. 2020.

[4]. D. DeTone, T. Malisiewicz, and A. Rabinovich, “Superpoint: Self-supervised interest point detection and description,” in CVPRW, 2018.

[5]. J. Tang, H. Kim, V. Guizilini, S. Pillai, and R. Ambrus, “Neural outlier rejection for self-supervised keypoint learning,” in ICLR, 2020

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：