这篇文章主要讲给你一张图片, 怎样得到该图片中每个像素全局或者局部的feature,
输入是HxWx3, 输出是HxWxn, n为feature的维数
对于Table1来说, G,L, n就是3, 而GL,n就是6
整个网络如图2
那么如果 训练得到这个feature呢? 注意这句话
A siamese network with two identical SAND branches
is trained using this loss to produce dense descriptor maps.
也就是说, 两张图片对应两个分支, 然后按照公式5来计算loss
在选择positive 和 negative的samples, 是一个postive, 和随机选择固定个数的negative
图片来自Self-supervised Visual Descriptor Learning for Dense Correspondence
选择的范围是在3.2里用
α
\alpha
α和
β
\beta
β来做的.
然后 就完事 了
注意table1中I 是intermediate的意思
然后讲就是它可以干的事情
4部分, 讲可以用来cost volume, 进而可以算disparity map(5.1), 从而可以估计depth map, 具体见
Pyramid Stereo Matching Network
以及从cost volume可以做semantic segmentation(5.2)
没怎么具体, 说是把最后一层改成19-class segmentation.
5.3 是self-localisation
https://blog.csdn.net/seamanj/article/details/93427424
feature 可以用来estimate 相机的位置和旋转
5.4 用feature来做SLAM. 类似ORB-slam,只不过用SAND feature 来代替.