文章目录
解决什么问题
车辆的位姿估计
本文创新点\贡献
- 展现了位移的估计对6D估计的影响
- 相邻车的加权non-local块交互
- 根据几何基础设计的loss
- 同时用visual clue和bbox信息进行translation head的训练
前人方法
之前的方法大多是两阶段,第一阶段是3D旋转估计,第二阶段是通过投影距离估计,主要使用的bin picking任务
这个投影距离估计有点意思啊
在不同的场景下,对不同的信息的精准度要求是不同的:
- 机器人拧螺母的情况下, Z Z Z为的对齐、摄像机的光轴都没有 X , Y X,Y X,Y轴的对齐重要,旋转很重要
- 在无人驾驶的情况下,路上的车辆间的纵轴变化很大,位移比旋转更难估计
传统的方法是在分类之后再预测位移,然后用几何射影的方法来估计旋转。
几何投影方法假定:
- 3D的物体的中心被摄影到2D图像的目标bbox中心
- 对预测的对象类和旋转向量进行了正确的估计(如果差的太大就不行了)
不过这些几何摄影方法都是后处理方法,分类估计和旋转回归的误差也会带到位移的预测中。
作者说的这些的DeepIM不太一样,DeepIM也是后处理,但是是在已经初步预测的基础上,而不是先预测一些,再预测一些
本文IDEA来源
没说
方法
方法概述
在ResNet后面增加 加权non-local操作,然后利用MaskRCNN预测的class和加权后的权重来再进行分类、旋转预测。
另一个分支利用bbox信息,再结合之前用于预测分类、旋转的特征图,得到位移的估计。
Weighted Non-local neighbour embedding In
一句话概括
将响应变成加权的
解决的点
探究检测的物体之间的空间依赖关系
优点
- non-local [ A non-local algorithm for image denoising ] 操作通过计算任意两个位置之间的相互作用来直接捕获远程依赖,不需要考虑他们的位置距离
为什么会有效,刚才的距离不是相邻的车吗?
答:这就是注意力机制 - 可以使用多样的输入尺寸,而且还可以简单的和其他操作结合
- 提出的加权操作使得将输出映射与自我注意机制相关联成为可能,从而获得更好的可解释性。
???
原理
作者觉得利用相邻的物体之间的依赖,比单独使用能更好的预测6D位姿。
比如在同一巷道形式的车,会有相同的方向并保持一定的距离
来源:
基于图像中的全部像素的非局部平均[ Non-local neural networks ]
这篇论文里引入的 non-local 操作是使用深度学习网络来获取长距离依赖的有效、通用的手段
直观地说,一个 non-local 操作将一个位置的响应计算为输入特征图中所有位置的特征的加权和
所以这个响应是什么,是和什么响应的?
类似重要程度的东西?
方法
y i = 1 C ( x ) ∑ ∀ j f ( x i , x j ) g ( x j ) y_i = \frac{1}{C(x)} \sum_{\mathclap{\forall j}}f(x_i,x_j)g(x_j) yi=C(x)1∀j∑f(xi,xj)g(xj)
i i i表示输出位置的index
j j j表示枚举所有的可能的位置
x x x是输入信号, y y y是输出信号,尺寸和 x x x相同
f f f函数计算两个位置之间的标量关系,应该就是权重
g g g函数是一元的,计算 j j j位置的输入信号
C ( x ) C(x) C(x)是用来正则化响应的
non-local模型对 f , g f,g f,g的选择都不敏感,怎样选择不太会影响结果
也就说重要的是这个框架,里面的函数的设置根据问题环境的需要而修改?
作者为了简单快速的计算,设置 g g g为:
g ( x j ) = W g x j g(x_j) = W_gx_j g(xj)=Wgxj
W g W_g Wg是一个需要学习的权重矩阵
设置 f f f为 embedding Gaussian :
f ( x i , x j ) = e θ ( x i ) T ϕ ( x j ) f(x_i,x_j) = e^{\theta (x_i)^T \phi (x_j)} f(xi,xj)=