lizhaohu01-CSDN博客

原创 Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level(2020)(八)

本文是一套提高feature提取以及描述能力的通用方案，可以认为是一种refine原始网络的方案。可以应用到任何类似superpoint这样的网络上，不需要数据标注，而且改造成本很小！！！！！问题描述：像superpoint这样的网络训练的时候是在一些合成图上训练，并且这样的网络几乎都是在low-level层次训练，并没有在high-level层次训练网络，因此往往在解决实际任务的时候泛化能力不强（比如我想进行2d-3...

2020-09-03 20:45:46 886 1

转载如何通俗地解释泰勒公式？

如何通俗地解释泰勒公式？ - 知乎 https://www.zhihu.com/question/21149770/answer/464443944简单明了，通俗易懂。感谢贡献

2021-05-20 11:19:15 648

原创 Learning to Guide Local Feature Matches 2020

核心思想：训练一个“指导器”，指导匹配的大致范围。如下图所示：假设特征是sift，正确的匹配是w，通过最近邻算法可能得到的匹配是p1，如果先有一个指导，告诉你大致正确的匹配在p2附近，那么就有很大的可能找到w正确匹配。因此本文的重点是如果训练出一个这样的“指导”器。整体pipeline：和NC-NET中的4d卷积基本上一致，首先输入两张图，经过cnn网络会输出两张feature map。然后通过计算一个4d的tensor，表示的是匹配的相关性score 矩..

2021-04-26 17:56:27 526 1

原创 Dual-Resolution Correspondence Networks 2020

核心思想：使用4D 卷积运算获取dense的匹配pipeline：解释：输入为两张image，输出为dense的特征匹配。算法共分为三部分，分别是：特征提取模块、4d卷积模块、coarse和fine融合模块1> 特征提取模块。输入两张image，然后使用经典的cnn提取多个分辨率的feature map层次，将高分辨率的feature map称为fine feature，将低分辨率的 feature map称为coarse feature，由于...

2021-04-26 16:00:13 976

原创 Consensus-Guided Correspondence Denoising 2021

核心思想：通过一种从粗到精的方式得到内点，当outlier高达90%的时候仍然可以得到很好的结果整体pipeline：输入的是两张图的匹配对，类似learning good feature match 输出的是这些匹配对的score，直接得到inlier和outlier核心部分是pruning block模块。下边具体介绍一个Pruning Block： 1. 输入N*4的匹配矩阵然后通过resnet将特征升为N * 128（我的理解这里应...

2021-04-25 20:27:55 311

原创 Learning Two-View Correspondences and Geometry Using Order-Aware Network 2019

核心思想：借鉴pointnet的方式将局部邻域信息融入匹配整体pipeline：一共分为三部分：1>是pointCN模块，将无序匹配对转换成有序不变矩阵 2>DiffPool和DiffUnpool 3>Order-Aware Filtering block（这里边的是MLP多层感知机）网络的整体输入是匹配对坐标（x1,y1,x2,...

2021-04-23 11:15:57 1248

原创 LoFTR: Detector-Free Local Feature Matching with Transformers 2021

核心思想：本文的目的是为了解决传统匹配的时候detector不鲁棒的问题，例如下图，上边是本文匹配结果，下边是superglue匹配结果：可以认为是在superglue上的简单改进整体pipeline：如下图所示，整体pipeline分为四个模块：网络输入两张待匹配的image，输出最终的local feature的匹配结果1> local feature 和传统的dee...

2021-04-20 15:26:47 5869

原创 SuperGlue: Learning Feature Matching with Graph Neural Networks 2020

整体介绍：核心思想：使用图的思想，融入邻域以及特征点的位置信息解决2d-2d匹配问题整体pipeline：解释说明：整个pipeline输入的是两张图，首先进行特征提取，然后经过gnn网络输出两张图特征点之间的匹配关系细节：整个网络主要分为三部分，分别是：特征提取 -> attentional gnn（其实就是自卷机+交叉卷机）-> optimal layer（目的是为了得到1-1的match）1>特征提取特征提取部分可...

2021-04-19 17:49:11 1090

原创深度学习自适应

2020-10-27 10:13:52 1681

原创几种网络压缩加速方法记录

2020-10-21 10:15:35 388

原创 Unifying Deep Local and Global Features for Image Search(2020)(十四)

本文要解决的问题：image retrieval，室外，地标识别(GOOGLE之作，大神出品必属精品)核心思想：融合global和local feature进行更加精确的image retrieval，并且在local feature 的训练不需要标注（无监督）网络框架：整个网络可以分为三部分： 1.backbone 网络(就是传统的cnn网络vgg，提取feature map层)。 2.取较深的一层feature map...

2020-10-16 10:24:19 2182 2

原创 Key.Net: Keypoint Detection by Handcrafted and Learned CNN Filters(2019)(十三)

本文要解决的问题：本文主要解决detector 问题，为什么要解决这个问题呢？目前已知的detector的可重复性检测不鲁棒作者分析是没有像fast等这样使用像素的梯度信息，因此本文提出了一种新的方法解决detector问题。本文主要的贡献：提出了一种融合传统detector方法和deeplearning的方法的特征detector器，更加鲁棒稳定健壮。首先是整体框架：网络框架很简单，首先为了仿照金字...

2020-09-09 11:41:21 3196 1

原创 HyNet: Local Descriptor with Hybrid Similarity Measure and Triplet Loss(2020)(十二)

本文要解决的问题：从公式推导descriptor如何训练更加完美，仅仅解决descriptor的问题，detector使用sift或者别的网络得到。1.梯度下降分析1.1 首先是梯度方向分析上述1中的决定梯度方向是分别对x和y求偏导数可以得到上述结果，我们假设：梯度的方向是∆ =∆∥ + ∆⊥，其中∆∥表示和特征向量x或者y平行的向量，∆⊥表示和特征向量x或者y垂直的向量，任何梯度方向都可以使用这两个向量之和表示。当归一化之后忽...

2020-09-08 16:25:38 823 3

原创 ASLFeat: Learning Local Features of Accurate Shape and Localization(2020)(十一)

2020-09-07 19:02:51 632

原创 Learning Feature Descriptors using Camera Pose Supervision(2020)(十)

本文要解决的问题：本文主要是提出一种新的方法提取descriptor，由于一般descriptor的训练都需要标注匹配数据，这件事比较难，因此本方法的创新之处就在于仅仅通过relative pose就可以训练网络学习descriptor，不需要标注match。本方案需要使用别的算法提供离散的detector。符号定义：：两张匹配图：分为表示两张图上的像素坐标：分别表示I1和I2图片通过网络...

2020-09-04 17:09:01 1501 1

原创 D2D: Keypoint Extraction with Describe to Detect Approac(2020)（九）

核心思想：本文是一种refine特征提取网络的技术，并且是无监督学习，不需要标注数据方便refine 任何deep feature网络解决问题以及出发点：一个完整的feaure包含角点信息和描述符信息，直观上讲描述符的维度那么高理论上他应该包含了一些关于角点的信息，而且应该也比较鲁棒，那么是否可以从描述符中抽取出来detector信息呢？这就是本文出发点。简单review：现在的d...

2020-09-04 11:30:56 738

原创 R2D2: Repeatable and Reliable Detector and Descriptor(2019)(七)

本文的核心思想是提出一套同时detector和descriptor的网络，区别于别的网络，本文会输出Repeatable和Reliable层用来表示feature map的score和权重（置信度）。首先我们来看下整体网络结构：输入一张W*H的image，输出三块东西：1）dense 的descriptor 的feature map（H*W*128） ...

2020-09-03 16:55:28 1316

原创 D2-Net: A Trainable CNN for Joint Description and Detection of Local Features(2019)(五)

本文是一个集合detector和descriptor为一体的网络，并且只需要知道匹配就能同时训练一个detector和descriptor的网络这也是D2的来历一些思考：1. 一些deeplearning的feature匹配其实在descriptor表现的已经很好了（感受野也比较稳定），所以认为瓶颈在detector上，本文主要解决的问题就是这个。 2. descriptor中融合了许多信息，那么...

2020-09-02 21:01:56 2779 1

原创 LF-Net: Learning Local Features from Images(2018)(四)

这是一个无监督学习的网络，也可以理解成自监督（思路挺不错），具体如何无监督下边会说。整体网络结构如下：输入一整图片，直接输出detector和descriptor，并且图片大小没有要求。可以看出网络整体包含两部分，detector网络和descriptor网络。 1.1 首先是detector网络。这里目标同sift一样要学习四个数: x,y, orientation，scale。具体过程如下： ...

2020-09-02 19:04:18 1657 5

原创 Working hard to know your neighbor’s margins: Local descriptor learning loss(2018)(三)

主要是在L2-NET上的改进，在L2-NET中中间feature map层以及最终的feature维度上都进行了监督，容易造成过拟合，因此本文做了优化主要贡献点：1. End-to-end的训练模式。 2. loss简单有效首先：如上图所示，A和P表示两个匹配集合, 例如a1和p1是一个gt中的匹配， d（a1，p1）是两个匹配之间的descriptor之间的距离。本文中目标：尽量缩小正确匹配的feature之间的距离，尽量增大错误匹配...

2020-09-02 11:26:12 1254

原创 SuperPoint: Self-Supervised Interest Point Detection and Description(2018)(二)

一套同时detector和descriptor的网络框架。SuperPoint Architecture 整体网络框架：3.1. Shared Encoder 使用VGG网络输出的cnn feature map（叠加了多个feature map），最后输出B ∈ R Hc×Wc×F，其中Hc = H/8 and Wc = W/8 and F > 13.2. Interest Point Decoder...

2020-09-01 20:35:10 567

原创 L2-Net: Deep Learning of Discriminative Patch Descriptor in Euclidean Space(2017)(一)

　　本文主要贡献：　　1、提出了一种新的采样策略，使网络在少数的epoch迭代中，接触百万量级的训练样本；　　2、基于局部图像块匹配问题，强调度量描述子的相对距离；　　3、在中间特征图上加入额外的监督；　　4、描述符的紧实性。　　基于CNN的局部图像块匹配方法可以分为两类：一是，作为二分类问题，不存在明确的特征描述子概念，好处是准确率相对第二类高很多，但可移植性能差；二是，CNN输出学习的图像块描述子，没有度量学习层，好处是可以作为以前的很多基于手工描述子方法应用的直接替代。　　A、

2020-09-01 17:06:07 1229 1

原创 TextPlace: Visual Place Recognition and Topological Localization Through Reading Scene Texts[2020]

本文主要是利用hight level的信息，textual进行地点识别，也可以认为是粗定位的网络分为两个阶段：1）建图阶段，生成texture拓扑结构。2）在线query定位阶段。整体框架结构：3.2. Text Detection and Recognition 使用重新训练的TextBoxes++网络进行text的提取 3.3.1 Text Filtering 为了减少text检测的误差，定义了一种预处理，使用Levenshtein...

2020-08-19 13:41:59 468

原创 Zero-Shot Multi-View Indoor Localization via Graph Location【2020】

Graph Location Networks (使用graph、multi-view、indoor)整体系统框架：再建图的时候已经踩好了采集点，为每个采集点进行编号，这样localization问题就变成了每次query的时候在哪个采集点的概率问题（这样就是一个分类问题）因此输出的position是一个有损的（和database中的采集点的密度有关）3 METHODOLOGY 系统输入一系列query image x，通过关联X（database的ima...

2020-08-11 20:50:00 717

原创 D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features（2020）

本文主要目的是学习3d 点云的 detector & descriptor（之前的detector都是手工设计的，比如pointnet使用每个点，或者输入的是点云的小patch）全文是在D2-net网络框架上的启发。3. Joint Detection and Description Pipeline 受到D2-net的启发，本文尝试在3d上进行detector & descriptor （由于3d点云的密度不均匀性质+系数性，传统的基于path的并不好（容易在稀疏的...

2020-08-07 10:34:52 1007

原创【论文笔记】Robust Image Retrieval-based Visual Localization using Kapture【2020】

截至目前robotcar数据集第一名a robust image retrieval-based visual localization method整个框架没有什么创新，首先是image retrieval（这里使用他们实验室自己的APGem方法：Learning with Average Precision: Training Image Retrieval with a Listwise Loss.）然后使用R2D2 deep feature进行2d-2d的匹配，最后...

2020-07-29 14:00:06 939

原创 SVD在神经网络中的常用应用以及原理

SVD回顾 SVD常用矩阵分解:A(m*n) = U(m*n)A(n*m)V(m*n), 在PCA中可以看到，SVD做矩阵压缩，假设压缩至K纬，只需要保留特征值最大的top即可，那么有:A(m*n) ～ U(m*k)A(k*k)V(k*n) = U(m*k)V(k*n) 应用：总结：可以看出模型的参数大大压缩而且效果基本上一样。训练过程注意事项：由于变换后的网络模型深度增加了，因此不要在变...

2020-07-29 10:42:34 1643

原创层数比较深的网络训练技巧

监督性区分性分层训练遇见的问题：假如训练20层的网络，直接堆积网络，由于网络过于深入，每一层都会有误差（并且是小于1的值），这样可能会在回传的时候会导致梯度消失（连续累✖️越来越小），无法收敛，那么是如何训练的呢（很多情况都是由于初始数值不好导致）。解决方法：1. 进行分层训练，首先先抽7层隐层，然后后边直接接入一个到输出层的线性变换，先用部分数据训练这样的7层网络结构。 ...

2020-07-29 10:13:37 936

原创【论文笔记】Privacy Preserving Image Queries for Camera Localization

In this paper, we propose a new privacy preserving visual localization approach that involves transforming the query image features before sending them to the server.所提出的变换防止了对手在场景中恢复图像外观和识别机密信息。这是第一个解决方案，也是减轻基于云的本地化服务中的隐私风险的关键一步。它可以在不受中间人攻击或不必信任服务器的情况下使

2020-07-10 20:20:56 458

原创【论文笔记】PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines（2017）

线主要应用在：BA、relocalization、初始化时使用了line特征同时处理点和线的对应关系插入关键帧：如果图像包含有关环境的大量新信息，则将其标记为关键帧，并对其相应的线进行三角剖分并添加到地图中。为了丢弃可能的异常值，从少于三个视点或少于25%的帧中看到的线也会被丢弃（剔除）。地图中的直线位置用局部ba优化。注意，在图2中，我们不使用线来闭合回路。整个地图上的匹配线在计算上太贵了。因此，只有点特征用于环路检测。目前基于优化的slam方法都是由至少两帧之间的点对应关系建立的映射初始

2020-07-10 19:57:04 1351

原创【论文笔记】Geometry based exhaustive line correspondence determination* ICRA2016

当无法获得可靠的纹理信息来识别线条特征时，另一种选择是探索模型和相机的各种可能配置，直到我们获得图像和模型特征之间的几何一致性对应。这包括两种类型的探索，（i）搜索对应地图空间[9]，[10]（ii）搜索姿势空间[11]，[12]，[13]。在第一种方法中，通过不同的可能对应图进行搜索，直到获得几何一致的姿态。在第二种方法中，通过不同的姿态参数值进行搜索，直到重新投影的模型特征与大量图像特征很好地对齐。这两种搜索在计算上都非常昂贵，需要基于某些假设的一些技术来加速它们核心思想：在...

2020-07-10 14:00:11 302

原创【论文笔记】Learning Matchable Image Transformations for Long-term Metric Visual Localization（2020）

摘要：这是一篇通过预处理干掉光照对视觉定位影响的论文（如果可行的话其实可以嵌套到任意防止光照变化的网络之前）（目标是免疫各种光照变化）。本文的核心任务是学习一个非线性变化：rgb->gray（是一个非线性的变换过程）网络输入image pair对，然后输出grayscale图片，之后接入match网络，而match网络的输出是match对（gt使用不可微的match->ransack->非线性优化得到）（抗光照能力较强）思考？？？既然他的抗光照变化是靠cn...

2020-07-07 19:38:25 466

原创【论文笔记】3D Scene Geometry-Aware Constraint for Camera Localization with Deep Learning(2020)

文章主要贡献：1> 一种输入image直接回归absolute pose的网络 2> 可支持dense和sparse的depth输入，增加pose的精度（depth只在train的时候使用， test的时候only输入image） 3> 在indoor和outdoor上进行了实验，并且该网络可以很方便的嵌套到别的网...

2020-07-06 10:57:47 630

原创【论文笔记】Learning Shape-based Representation for Visual Localization in Extremely Changing Conditions

本文主要解决传统的cnn网络进行视觉定位的时候存在的两个问题：1>纹理变化。 2>结构变化（局部结构）解决方法大致：1>增加学习shape的偏执项 2>评估主结构（包括road plane floor building ceiling）等基本不可改变的客观结构III. APPROACH 目标是一个end-to-end的网络架构，但是不像传统的cnn那样依赖于纹理或者局部结构，本文使用一种shape网络（已有网络上直接refine即可）A. Incr...

2020-07-02 16:39:51 510

原创 GeoDesc: Learning Local Descriptors by Integrating Geometry Constraints(2018)(六)

3.2 Training data generation 2D correspondence generation. 使用sfm得到的3dpoint clone，然后返投得到点的匹配关系，使用一种。。。算法优化结果干掉outliers。 Matching patch generation ，输入sift的参数（x,y,si,der）,输出转正的path3.3 Geometric similarity estimation 定义了两种...

2020-06-30 19:48:48 516

原创【论文笔记】Semantic Localization through Propagation of Scene Information in a Hierarchical Model

包含语义场景和对象信息以提高移动机器人的定位能力。•使用移动机器人在现实世界实验中对语义定位的评估。本文使用分层的拓扑结构混合地图，低层次的一组节点可以在高层次的抽象成一个节点具体结构如下：根据观测，当前状态的概率是这个，状态可以认为是pose超级节点可以认为是低级节点中一组节点的和，因此用上述概率表示所以这就是创新。。。。。。好像这样只能定位到某个节点附近？？...

2020-06-30 11:46:30 287

原创【论文笔记】Global visual localization in LiDAR-maps through shared 2D-3D embedding space（2020）

摘要：主要是做直接从3d lidar map到image 之间建立关系的视觉定位任务（使用DNN），可以认为是一个2d到3d的地点识别III. PROPOSED APPROACH假设lidar map（M）中有很多submap(mi)，任务是学习：，其中mi是和query image I相关的submap，j是和query image I不相关的submap，d是一种距离度量。f（）和g（）就是要学习的函数将image 空间和电云空间的feature映射到一个空间中这样才可以进行度量。..

2020-06-30 10:59:10 699 1

原创【论文笔记】Prior Guided Dropout for Robust Visual Localization in Dynamic Environments（2020）

单目图像的摄像机定位一直是一个长期存在的问题，但其在动态环境下的鲁棒性还没有得到充分的解决。与经典的几何方法相比，现代的基于CNN的方法（如PoseNet方法）表现出了抗干扰和视点变化的可靠性，但仍有以下局限性。首先，前景移动对象没有得到明确的处理，这会导致动态环境中的性能差和不稳定。其次，每幅图像的输出是一个不确定量化的点估计。本文提出了一种通用于现有基于CNN的姿态重构器的框架，以提高其在动态环境下的鲁棒性。其核心思想是一个预先引导的退出模块，该模块可以在训练和引用过程中引导CNNs忽略前景对象。此外，

2020-06-30 09:49:34 549

原创【论文笔记】PoseGAN: A Pose-to-Image Translation Framework for Camera Localization（2020）

使用poseGAN的方式求解相机pose，不同于基于结构和learning求解相机pose的方式，本文使用基于几何的方式，相比较基于纹理回归的方式更加鲁棒。提出在室内场景很多2d-3d方法（dsac。。。）不太合适，因为Motion blur, strong illumination, texture-less or repetitive，而基于learning的相对较鲁棒但是精度不高。贡献：1.第一次使用gan做定位问题。 2.模型比类似posenet这样的网络小70%（速度快）。 3..

2020-06-29 21:25:53 1215

原创【论文笔记】To Learn or Not to Learn: Visual Localization from Essential Matrices（ICRA 2020）

Why essential matrices? (重点，为啥用这玩意就好呢)本文说，回归essential matrices相比较类似posenet这样的直接回归absolute pose 可以避免权重问题？？（不明白啥是权重问题），导致了更加精确的结果。文中提到densevlad相比较别的image retrieval pipeline 的泛化能力要好一些Pair selection：为了增加结果的精度需要保证query和database的baseline，因此topk...

2020-06-29 17:25:25 843 1

wifi程序源代码

空空如也