通过CNN学习描述符进行3D物体识别和姿态估计(笔记)——2015
《Learning descriptors for object recognition and 3D pose estimation》
摘要
文章通过CNN网络学习目标描述符,获取3D目标和姿态信息。与基于流形的方法(相似)相比,文章以欧氏距离(同类目标姿态与欧氏距离直接相关)来评估描述符【通过在描述符之间强制执行简单的相似性和相异性约束(约束很好地将来自不同对象和不同视图的图像解开成簇,不仅分离良好且结构化为相应姿态集的聚类)来训练CNN来计算关键点描述符】之间的相似性,因此使用可扩展的最近邻搜索方法来有效地处理大范围姿态下的大量目标。
引言
- 最近邻Nearest Neighbor分类适用于大范围问题,因其具有平均复杂度O(1),且可添加和删除目标,这在CNN中难以直接运行。
- NN法需要一个紧凑的、有区别的描述向量,该描述可获得某一姿态下目标外表,且明显优于SIFT或SURF等手工描述方法。
- 特征点描述符仅用于寻找点信息,但我们要找到目标的身份和姿势信息。因此,学到的描述符具有2个特性:
(a)不同对象的描述符欧氏距离要大;
(b)同一对象描述符间的欧氏距离应代表它们姿态间的相似性。 - 通过描述符匹配获得目标和姿态信息。
- 文中方法是第一个学习计算对象视图描述符的方法,优势:
(1) 运用可扩展的最近邻搜索方法
(2) 同时考虑描述符的2个特性(