LF-Net: Learning Local Features from Images(2018)(四)

最新推荐文章于 2021-12-12 16:13:28 发布

lizhaohu01

最新推荐文章于 2021-12-12 16:13:28 发布

阅读量1.2k

点赞数 2

分类专栏： deepfeature 文章标签：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010260681/article/details/108368197

版权

deepfeature 专栏收录该内容

14 篇文章 12 订阅

订阅专栏

这是一个无监督学习的网络，也可以理解成自监督（思路挺不错），具体如何无监督下边会说。

整体网络结构如下：

输入一整图片，直接输出detector和descriptor，并且图片大小没有要求。可以看出网络整体包含两部分，detector网络和descriptor网络。

1.1 首先是detector网络。这里目标同sift一样要学习四个数: x,y, orientation，scale。具体过程如下：

1）输入image之后使用3层resnet 输出固定大小的feature map（w*h*16）

2）将1）的feature map层resize成N个scale（N=5）的feature map

3）然后通过N个不同的卷积核生成N个“scale”的feature map层

4）将每个feature map层上采样到原始图的size，并且在每个feature map层执行15x15的可微的非极大值抑制（通过softmax）

5）累加每层的权重

，得到最终的score，取topk得分高的位置就是detector的位置（不可微）

1.2 orientation，feature map层之后增加一个5X5的卷积每个pixel输出两个数表示角度信息（输出W*H*2的feature map）

1.3 scale，在1.1中得到最终topk的detector之后在channel方向上执行softmax得到scale值。

到这里已经得到了整个和sift一样的detector信息。

1.2 然后是descriptor网络，对每个detector，取crop（使用一个叫做STN的东西），然后卷积得到最终的descriptor

train

为了实现无监督，和解决选取topk不可微问题，训练网络如下：

左边和右边是两个完全一样的网络，但是输入的是两张不同的图（已知每张图的pose和depth信息（通过sfm或者rgbd得到））。

1）左边和右边同时输入网络，然后进行detector，因为知道相对pose，因此detector可以从右边转换到左边，那么只在右边取topk的detetocr。

2）然后手动在这topk的位置进行高斯滤波（其实是为了更加突出topk位置的权重，因为默认的这里就是gt），然后计算image-level-loss：

可以看到该loss将会惩罚两个角点的不一致性（w表示的是从右图转换到左图，g表示2中的高斯滤波）

同时为了增加orientation和scale约束，增加了loss：

（这里不知道怎样使用pose变过去？？？？？）

另外，还有descriptor的loss（因为path的位置直接影响descriptor）

3）descriptor的loss

惩罚正确匹配的不一致性和不正确匹配的一致性

实验结果：

10， 20， 30， 60表示的是测评的帧之间的间隔（可以认为数值越大base-line越大），表格统计的是一个什么得分（越大越好）可以看出不适合宽基线

可能是由于orientation和scale的约束只能match上较小变化？？？

总结：

训练数据（任何一个sfm建好图的都可以训练只需要知道pose+3d点，无监督）
scale（网络中的scale是通过resize不同的feature map层得到，本文5个scale）
orientation（有orientation约束，通过5X5的卷积得到每个pixel的orientation ）
wild-base（效果不太好）
detector & descriptor（输入image 输出detector + descriptor）

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
5
评论
LF-Net: Learning Local Features from Images(2018)(四)

这是一个无监督学习的网络，也可以理解成自监督（思路挺不错），具体如何无监督下边会说。整体网络结构如下：输入一整图片，直接输出detector和descriptor，并且图片大小没有要求。可以看出网络整体包含两部分，detector网络和descriptor网络。 1.1 首先是detector网络。这里目标同sift一样要学习四个数: x,y, orientation，scale。具体过程如下： ...
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。