小样本学习&元学习经典论文整理||持续更新
核心思想
该文使用基于孪生网络结构的CNN来实现相机的位姿估计和视觉伺服,过程也比较好理解,输入是当前位置的图像和期望位置的图像,输出的是两个图像之间的变换矩阵(包含平移矩阵和由四元数表示的旋转矩阵)。网络的结构如下图所示
孪生网络的两个分支分别对应当前位置图像
I
A
I_A
IA和期望位置的图像
I
B
I_B
IB,分别提取图像中的特征信息,然后将通道压缩至96,并且展成一维特征向量,再进行拼接。最后经过7个全连接层,输出7个预测结果(平移参数x,y,z和旋转四元数a,b,c,d)。损失函数如下
t
i
t_i
ti表示平移参数,
q
i
q_i
qi表示旋转参数,
R
M
S
RMS
RMS表示均方根误差。该文预测的结果其实是两幅图像之间的变换矩阵
T
Δ
T_{\Delta }
TΔ,而不是像传统视觉伺服那样输出对于速度的控制律,因此这里还是需要用其他的控制方法来实现期望的位姿变换。但相对于传统的视觉伺服方法,该文提出的方法能够在初始位置偏差比较大的情况下(如下图第三行,目标只有30%部分在视野中),还能够通过逐步迭代不断接近期望位置,这是传统视觉伺服中很难解决的问题(目标特征点不再视野中无法计算图像雅可比矩阵)
算法评价
总体而言该文提出的方法更接近于相机的位姿估计问题,而不是视觉伺服,但本文提出的方法是可以应用于视觉伺服的任务的。另外本文发现使用孪生网络结构分别提取当前位置图象和期望位置图像的特征,再通过级联方式拼接起来,会比直接把两幅输入图像拼接起来进行特征提取效果要更好,这一点是与《Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous》这篇文章中的实验相吻合的。
如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。