Agent 1-CSDN博客

原创自监督的三维重建论文总结（MVSNet系列）

目前我看到的无监督的方法就是这么几篇，会持续更新相关论文。其实都是基于第一篇提出的基于光度一致性做文章，在那个基础上使用各种层面上的光度一致性约束。Learning Unsupervised Multi-View Stereopsis via Robust Photometric ConsistencyMVS2: Deep Unsupervised Multi-view Stereo with Multi-View SymmetryM3VSNet: Unsupervised Multi-metri

2021-02-18 12:27:31 3302 2

原创双线性插值问题，以及相关最近邻法

参考：https://zhuanlan.zhihu.com/p/49832888https://zhuanlan.zhihu.com/p/110754637其他问题参考引用2双线性插值简单来说：根据点1&点2算出来m处的像素值：FYI：pn表示点n的像素值；（xn，yn）表示点n的坐标(p2-p1)/(x2-x1) = (p2-pm)/(x2-xm)x2-x1 = 1p2-p1 = (p2-pm)/(x2-xm) => pm = p2 - (p2-p1)*(x2-x

2021-01-07 15:56:30 424

原创单应性变换怎么做到通过相机内外参获得单应矩阵

2021-01-07 15:38:26 1548 2

原创【论文笔记】Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

时隔很久终于回来了，虽然状态不是很好，但是因为开学了就不得不搞起来。换了方向了，以后大概是姿态估计走下去了。1 Intro这是一个自底向上的实时多人的2D人体姿态估计模型。提出了PAFs方法，用来学习人体部位和人体的关联关系。证明了只改进PAF而不是同时改进PAF和身体部位位置可以显著提高运行时性能和准确性。自顶向下的方法直接利用了现有的单人姿态评估技术，但是会受到影响:如果人检测失败了（当人们离得很近时，很容易失败）就没有办法恢复。此外，它们的运行时间与图像中的人数成正比，因为要对对于每个人检.

2020-09-24 18:38:16 1107

原创 insightface关键部分解析

参考这两篇博客：https://blog.csdn.net/u013841196/article/details/89921479https://blog.csdn.net/qq_34914551/article/details/86515184?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=dis...

2020-03-19 12:07:23 1156

原创解决 deconvolution 中 uneven overlap 的问题

参考：https://blog.csdn.net/g11d111/article/details/101781549在做deconvolution的时候，因为kernel size和stride各种值组合可能会出现uneven overlap的情况，这样会导致失真，并且这种情况是很容易发生的。下图中黑色点和灰色点即为uneven overlap的点。并且在网络中，它不仅不会避免这类问题，还甚至...

2020-02-11 13:09:57 444

原创【论文笔记】ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems

1 Intro本文设计了一个端到端的方法，同样使用生成差异图的方法。不同在于这个模型加强了loss约束，增强了对噪声、低纹理区域和光强变化的稳定性。不使用一般左右一致性的方法的处理遮挡区域，这里使用left—check的方法，减少了计算时间。另外采用adaptive support weight方法（基于窗口的cost aggregation）对loss优化，这样可以保留边界并使loss平滑，最...

2020-02-11 13:00:30 516

原创 Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints

1 Intro这篇文章的创新点在于loss的改进，之前的非监督方法loss都是像素范围上或者基于梯度的，只是考虑了像素周围局部的小范围。本文的方法就是将场景的立体几何考虑进来，增强预测的一致性。2 Approach整个方法流程如图所示，首先网络的input是两张相机运动连续的图片，分别对两个图片预测深度图，然后再根据这对图片预测出相机自运动信息，一张图片的深度图转点云后结合预测的相机自运动...

2020-01-14 21:24:25 1339

原创 CVPR 2017【论文笔记】Unsupervised Learning of Depth and Ego-Motion from Video

【论文笔记】Unsupervised Learning of Depth and Ego-Motion from Video1 Intro在已知相机参数的情况下，可以通过视差来得到相对应的深度。那如果左右相机不在同一个平面并且参数也不知道，本文就提出了一种方法，从视频序列来进行深度和相机运动的估计。这也是无监督的学习方法，区别在于不需要双目，也不用知道相机参数。2 Approach这里的训...

2020-01-06 14:35:50 3159 1

原创 2018 IROS【论文笔记】Towards real-time unsupervised monocular depth estimation on CPU

1 Intro无监督学习下的深度估计越来越受到关注，但是许多网络层数很多结构也很复杂，需要强大计算能力GPU的模型无法实施在低计算能力的应用环境下。于是本文提出一种网络，可以在CPU上（甚至嵌入式系统）进行准确的深度估计。2 PYD-NET ARCHITECTURE与多数策略一样，将深度估计视为图像重建问题去解决。对每一对无标签的数据，左视图通过网络处理获得逆深度图（即视差图disparit...

2019-12-30 17:38:29 1123 2

原创 CVPR2017 Oral【论文笔记】Unsupervised Monocular Depth Estimation with Left-Right Consistency

1 Intro基于学习的方法对深度估计有非常好的效果，然而现存的方法都是监督学习需要大量的训练数据，本文作者提出一种单视图的深度估计方法，且不需要ground truth depth data。2 Method建立一种training loss去check左右一致性，可以使训练在不需要ground truth的监督。2.1 Depth Estimation as Image Reconst...

2019-12-23 15:41:43 1826

原创 NIPS 2014【论文笔记】Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

1 Intro对于估计的立体图像局部对应曲面，从单个图像中查找深度关系就不那么简单，需要集合不同的全局和局部信息。此外，这项任务本身就有模糊性，因为总体规模带来了很大的不确定性。于是这篇文章提出了一个模型用两个神经网络进行深度估计。2 Approach2.1 model architecture该网络使用了两个stacks，一个是coarse-scale network，也是该模型的第一...

2019-12-14 22:32:11 1342

原创学习笔记（2）点云网格化

点云网格化：一个个稀疏的点变成稠密的网格。1）首先进行点云滤波，有以下几种原因：（1）点云数据密度不规则需要平滑（2）因为遮挡等问题造成离群点需要去除（3）大量数据需要下采样（4）噪声数据需要去除经过滤波处理，物体轮廓能变的更为清晰。2）点云下采样若点云数太多，进行许多张图融合的时候计算量太大，因此对海量的点云在处理前进行数据压缩。可以对输入的点云数据创建一个三维体素栅格，...

2019-12-10 23:03:38 4805 1

原创 ECCV2016【论文笔记】Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

1、INTRO本文作者旨在通过解决拼图问题来进行self-supervised learning，这样可以训练一个网络去识别目标的组成部分。2、Solving Jigsaw Puzzles当前一种解决拼图问题的方法是将9个tiles叠在一起，每张图又是三通道，所以就变成27通道。这种方法问题在于网络会更倾向学习图片间的低阶信息的相关性，比如说图片结构或者纹理边框。但是解决拼图问题并不需要...

2019-12-10 17:46:43 3774 1

原创 ICCV2017【论文笔记】Representation Learning by Learning to Count

1、INTRO这篇文章作者提出一种方法，去计数图像中的visual primitives从而学习图像的representation。2、Transforming Images to Transform Features作者提出两点：1）计算视觉原语（visual primitives）的特征不应受到缩放、二维平移和二维旋转变换的影响；2）一半的图像的视觉原语数量应该是小于整幅图像的。由此该...

2019-12-03 15:01:24 947

原创学习笔记（1）

三维模型一般的表示方式：点云（Point Clouds）、网格（Meshes）、体素（Voxels）、深度图（Depth maps）等。其传统方法流程（pipeline）：提取图像特征（如SIFT、SURF等）->利用特征将图像计算图像之间的特征匹配->基于匹配的特征进行稀疏重建，得到各个图像的相机位姿和稀疏的特征点云（SfM）->基于相机位姿进行稠密重建，得到稠密点云（P...

2019-12-03 12:29:23 211

原创 ICCV2015[论文笔记]Unsupervised Visual Representation Learning by Context Prediction

[论文笔记]Unsupervised Visual Representation Learning by Context Prediction1、INTRO深度学习方法在向互联网级数据扩展时因没有注释而受阻，作者旨在为图像的自监督学习提供一种公式，类似于文本的自监督学习，对上下文做出预测。即对一张图像给定一个patch，预测另一个patch相对于其的位置关系。2、Learning Visu...

2019-11-27 11:11:27 2885 8

weixin_42663567的博客