Paper list: dl based feature matching

最新推荐文章于 2022-03-01 20:33:34 发布

鹿米lincent

最新推荐文章于 2022-03-01 20:33:34 发布

阅读量302

点赞数

本文链接：https://blog.csdn.net/slzlincent/article/details/115968065

版权

https://github.com/TurtleZhong/Map-based-Visual-Localization

2018 survey

PN-Net: Conjoined Triple Deep Network for Learning Local Image Descriptors

lua语言 https://github.com/vbalnt/pnnet

triplet 最小负距离应大于正距离。

对孪生网络的一个改进，双胞胎变为三胞胎，然后根据Trilet Net建立损失函数。

iccv2015 Discriminative Learning of Deep Convolutional Feature Point Descriptors

正负样本在训练前后的特征距离分布。通过学习可以降低正样本的距离，增加负样本的距离

2017iccv DELF Large-Scale Image Retrieval with Attentive Deep Local Features

基于cnn深度特征发展大范围图像检索系统，提出数据集，

提出一种带有注意力机制的 cnn local feature，利用图像级的类别标签进行弱监督学习，不需要物体级与 patch level的标注，用于图像检索

注意力与decriptor是紧耦合的，

用 resnet50 + 交叉熵，学习 dense 的描述子张量

注意力模块对 dense 特征加权，

检索时候，采用kd-tree与PQ结合的最近邻搜索，ransac筛选判断匹配

2017 hard net

提出的 loss 可以最大化一个 training batch 中最近的正负样本之间的距离

Sampling

superpoint https://www.codetd.com/article/11893347

2017cvpr DeepCD

Learning Deep Complementary Descriptors for Patch Representations

学习一个leading descriptor与一个complementary descriptor.

By optimizing the proposed joint loss function,
we obtain a leading descriptor which performs well by itself
and its complementary descriptor which focuses on helping
the leading one.

cvpr2019 D2-net

光照和视点不变性：图像增强技术

鲁棒性增强，但是精度下降, 按照作者所说，这个精度是够视觉定位和SFM的。

特征点定位精度不高，速度也很慢，不过对光照等鲁棒性非常高

D2Net并不是高精度的像素级匹配，而更像是图像检索的DELF。

在4pixel threshold 的精度以下完全没法跟传统的SIFT之类比，只有当阈值放大才能有特别出众的效果。

坦白说这个方法几乎没有实际应用的场景，因为速度极其缓慢，而且精度很低，进行图像检索有更好的（DELF等），进行定位也有更快更好的（SIFT、ORB）。但是他有个特别好的地方是跳出了传统特征检测的范式，直接得到了det和des

nips2019 R2D2

NeurIPS2019 GIFT: Learning Transformation-Invariant Dense Visual Descriptors via Group CNNs"

cvpr2020 ASLFeat

对D2Net的更进一步，主要解决了D2Net的痛点——keypoint太不准了

Deformable convolutional networks (DCN)：这种是可以学习几何形变的卷积，应用在这里很棒，传统的卷积在RFNet已经用堆叠在扩感受野，其实结果已经很受限了。

DCN可能包含过多的形变可能性，但是在本任务中其实主要需求的是三种：1) similarity, 2) affine and 3) homography.

港科技大学等提出ASLFeat，目标是提取准确的局部特征和匹配能力。
- 论文认为匹配性能的提升有两个限制：特征点缺乏shape-awareness几何形变能力，关键点定位不准确难以解决相机模型的鲁棒性。
- 论文提出三个创新：deformable convolutional network解决几何形变；特征金字塔实现 low-level和high的特征融合；在D2net基础上，改进peakiness measurement。
- loss函数设计：在D2net基础上改进hardest-contrastive,更容易收敛。
- 模型在图像匹配(HPatches)效果明显，但是在3D reconstructionn(ETH benchmark)和Visual Localization(Aachen Day-Night dataset)等验证结果貌似和D2Net,R2D2不相上下，没有state-of-art水平。
- ASLFeat缺点：大尺度旋转的问题没有很好解决(谁来拯救形变？)，特征点提取10K，匹配阶段会很耗时。

作者：西红柿牛腩
链接：
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

accv2020 HDD-net

iros2019 DLD

triplet los进行描述子训练。在学习过程中，最小化代价函数的目标为使得真实匹配的线段之间的描述子距离尽量小，不匹配的其他描述子之间距离尽量大。

L2-net

https://blog.csdn.net/honyniu/article/details/86682285

https://zhuanlan.zhihu.com/p/56956811

本文主要的工作包括：

提出递进的采样策略，可以保证网络在很少的 epochs 就可以访问到数十亿的训练样本。
重点关注 patch 特征之间的相对距离，就是匹配上的 patch pair 距离比未匹配上的 patch pair 距离更近。
对学习过程中间的 feature maps 进行额外的监督。
同时会考虑特征的 compactness（紧凑程度）。

本文的主要目的是输出 patch 对应的 128d 的特征向量，而不去关注 metric 的学习，有了特征向量后直接利用 L 2 L_{2} L2 来度量相似度，简单来说就是在特征空间里面进行 nearest neighbor search (NNS) 查找最近的 patch 作为匹配结果。

本文的关注的只要 matching pairs 都互为最近邻即可，而实际距离的大小和量级不需要太过关心，也就是只关注相对距离。

patch matching 的问题上，负样本数量要远远高于正样本，一对匹配的 patch pair，除了互相匹配之外，其中每个 patch 和数据库中的除这两个之外的 patch 都可以组成负样本，这就导致很难在训练过程中遍历所有的负样本，所以需要一个好的采样策略。

之前的工作都是采样相同数目的正负样本，本文的递进采样策略则会采样更多的负样本。

————————————————
版权声明：本文为CSDN博主「无比机智的永哥」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/honyniu/article/details/86682285

Repeatability Is Not Enough: Learning Affine Regions via Discriminability

NCC-net

SOS net

hdd net

hy net

2020icra IF-net

2020IV asd-slam

2021 COTR

cvpr2021 LoFTR

类似我的处理思路：

Learning Matchable Image Transformations for Long-Term Metric Visual Localization

鹿米lincent

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Paper list: dl based feature matching

2018 surveyPN-Net: Conjoined Triple Deep Network for Learning Local Image Descriptorsiccv2015 Discriminative Learning of Deep Convolutional Feature Point Descriptors2017iccv DELFLarge-Scale Image Retrieval with Attentive Deep Local Features2...
复制链接

扫一扫