Javier.Lin_HUST-CSDN博客

原创 [论文翻译]Deep Image Prior

深度卷积网络已经成为图像生成和恢复的热门工具。一般来说，它们优异的性能归因于它们能够从大量的示例图像中学习到逼真的图像先验。在本文中，我们表明，相反，生成器网络的结构足以在任何学习之前捕获大量的低级图像统计。为了做到这一点，我们表明随机初始化的神经网络可以作为一种人工先验，在去噪、超分辨率和修复等标准逆问题中具有优异的结果。此外，相同的先验可以用来反演深层神经表征来诊断它们，并基于闪光-无闪光输入对恢复图像除了其多样化的应用外，我们的方法还强调了标准生成器网络架构所捕获的感性偏差。

2023-09-21 21:00:20 1003

原创 [论文翻译]Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

当前仅基于LiDAR的三维检测方法不可避免地会受到点云稀疏性的影响。许多多模态方法被提出来缓解这一问题，而图像和点云的不同表示方式使得它们难以融合，导致性能次优。在本文中，我们提出了一种新的多模态框架SFD (Sparse Fuse Dense)，它利用深度补全生成的伪点云来解决上述问题。不同于以往的工作，我们提出了一种新的RoI融合策略3D - GAF ( 3D网格注意力融合)来更充分地利用来自不同类型点云的信息。

2023-08-10 16:17:09 450

原创 [论文翻译]SKFlow: Learning Optical Flow with Super Kernels

光流估计是计算机视觉中一个经典而又具有挑战性的任务。准确预测光流的一个重要因素是缓解帧间遮挡。然而，由于缺乏足够的局部信息对遮挡区域进行建模，目前性能较好的光流估计方法仍然是一个棘手的问题。在本文中，我们提出了超级核流网络( Super Kernel Flow Network，SKFlow )，一种CNN结构来改善遮挡对光流估计的影响。SKFlow得益于超核带来的扩大的感受野来补充缺失的匹配信息并恢复被遮挡的运动。我们利用锥形连接和混合深度卷积提出了高效的超核设计。

2023-07-17 23:43:28 428

原创 [论文翻译]MeteorNet: Deep Learning on Dynamic 3D Point Cloud Sequences

理解动态3D环境对于机器人代理和许多其他应用至关重要。我们提出了一种名为MeteorNet的新型神经网络架构，用于学习动态三维点云序列的表示。不同于以往的工作采用基于网格的表示，并应用3D或4D卷积，我们的网络直接处理点云。我们提出了两种方式为点云序列中的每一个点构建时空邻域。来自这些邻域的信息被聚合以学习每一个点的特征。我们在包括动作识别、语义分割和场景流估计在内的多种三维识别任务上对我们的网络进行了测试。MeteorNet在辛西娅上表现出比以前基于网格的方法更强的性能，同时达到了最先进的性能。

2023-07-06 16:12:23 576

原创 [论文翻译]Detecting Everything in the Open World: Towards Universal Object Detection

在本文中，我们正式提出了通用目标检测，其目的是检测每个场景并预测每个类别。对人工标注的依赖、有限的视觉信息以及开放世界中新奇的类别严重制约了传统检测器的普适性。我们提出了UniDetector，一个通用的物体检测器，它具有识别开放世界中大量类别的能力。UniDetector通用性的关键点在于：1 )通过图像和文本空间的对齐，利用多源异构标签空间的图像进行训练，保证了通用表示的充足信息。2 )由于视觉和语言模态都提供了丰富的信息，它可以很容易地泛化到开放的世界，同时保持可见类和不可见类之间的平衡。

2023-07-04 18:35:29 1455

原创 [论文翻译]UPFlow: Upsampling Pyramid for Unsupervised Optical Flow Learning

我们通过改进金字塔网络的上采样和学习，提出了一种用于光流估计的无监督学习方法。我们设计了一个自引导上采样模块来解决金字塔层级间双线性上采样导致的插值模糊问题。此外，我们提出了一种金字塔蒸馏损失，通过蒸馏最精细的流作为伪标签来增加对中间级别的监督。通过将这两个组件集成在一起，我们的方法在多个领先的基准测试集上获得了最佳的无监督光流学习性能，包括MPI - SIntel、KITTI 2012和KITTI 2015。

2023-06-25 21:44:44 358

原创 [论文翻译]Global Matching with Overlapping Attention for Optical Flow Estimation

光流估计是计算机视觉中的一项基本任务。最近使用深度神经网络的直接回归方法取得了显著的性能提升。然而，它们没有显式地捕获长期的运动对应关系，因此不能有效地处理大运动。在本文中，受传统匹配优化方法的启发，即在基于能量的优化之前引入匹配来处理大位移，我们在直接回归之前引入了一个简单但有效的全局匹配步骤，并开发了一个基于学习的匹配优化框架，即GMFlowNet。在GMFlowNet中，全局匹配通过在4D代价体上应用argmax进行高效计算。此外，为了提高匹配质量，我们。

2023-05-22 17:02:26 466 1

原创 [论文翻译]CRAFT: Cross-Attentional Flow Transformer for Robust Optical Flow

光流估计旨在通过识别两幅图像之间的对应像素来寻找二维运动场。尽管基于深度学习的光流方法取得了巨大的进步，但在运动模糊的情况下准确估计大位移仍然是一个挑战。这主要是因为像素匹配的基础- -相关体积是由两幅图像卷积特征的点积计算得到的。卷积特征的局部性使得计算的相关性容易受到各种噪声的影响。在具有运动模糊的大位移情况下，噪声相关性会导致估计流的严重误差。

2023-05-16 22:52:09 578

原创 [论文翻译]Occlusion Guided Scene Flow Estimation on 3D Point Clouds（2021 CVPR）

在给定深度或距离传感器的情况下，三维场景流估计是感知环境的重要工具。与光流不同的是，数据通常是稀疏的，并且在大多数情况下，在两个时间采样之间存在部分遮挡。在这里，我们提出了一种新的场景流体系结构OGSF - Net，它紧密耦合了帧间流和遮挡的学习。它们的耦合共生导致对空间中流动的预测更加准确。与传统的多动作网络不同，我们的统一方法在整个网络中进行融合，提高了遮挡检测和流量估计的性能。我们的架构是第一个在点云上测量三维场景流估计中的遮挡。

2023-03-27 21:56:06 611

原创 [论文翻译]GMA3D: Local-Global Attention Learning to Estimate Occluded Motions of Scene Flow

场景流是三维点云中各点运动信息的集合。它是应用于许多任务的重要工具，例如自动驾驶和增强现实。然而，无论是从稀疏性数据采样还是现实世界的遮挡，两个连续的点云之间总是存在遮挡点。在本文中，我们重点研究通过移动对象的自相似性和局部一致性来解决场景流中的遮挡问题。我们提出了一种基于Transformer框架的GMA3D模块，该模块利用局部和全局相似性分别从局部和全局非遮挡点的运动信息中推断遮挡点的运动信息，然后使用偏移生成器对其进行聚合。我们的模块是第一个应用基于转换器的架构来测量点云上场景流遮挡问题的模块。

2023-03-25 18:32:01 315

原创 [论文翻译]FESTA: Flow Estimation via Spatial-Temporal Attention for Scene Point Clouds

场景流描述了三维场景的动态，对于自动驾驶、机器人导航、AR / VR等应用至关重要。传统上，场景流是从稠密/规则的RGB视频帧中估计的。随着深度感知技术的发展，通过点云进行精确的三维测量已经引起了三维场景流的新研究。然而，由于典型点云采样模式的稀疏性和不规则性，从点云中提取场景流仍然具有挑战性。与不规则采样相关的一个主要问题是点集提取/特征提取过程中的随机性，这是许多流量估计场景中的一个基本过程。为了缓解这种不稳定的抽象问题，提出了一种新的带注意力的空间抽象( SA2 )层。

2023-03-24 16:37:36 263

原创 [论文翻译]Learning to Estimate Hidden Motions with Global Motion Aggregation(ICCV 2021)

杰弗里·辛顿在其1976年的第一篇论文中写道："局部歧义必须通过找到最好的全局解释来解决" [ 13 ]。这一思想在现代深度学习时代依然成立。为了解决遮挡导致的歧义，我们的核心思想是允许网络在更高的层次上进行推理，即全局聚合相似像素的运动特征，隐含地推理出哪些像素在外观特征空间中相似。我们假设网络将能够通过寻找参考帧中具有相似外观的点来找到具有相似运动的点。这是由于观察到单个物体上的点的运动往往是均匀的。例如，向右运行的人的运动矢量有向右的偏向，即使我们看不到很大一部分人由于遮挡而在匹配帧中结束。

2023-03-23 18:57:25 344

原创 [论文翻译]SCOOP: Self-Supervised Correspondence and Optimization-Based Scene Flow

场景流估计是计算机视觉中的一个长期存在的问题，其目标是从连续的观测中发现场景的三维运动。最近，出现了从三维点云计算场景流的努力。一种常见的方法是训练一个回归模型，该模型消耗源点和目标点云并输出每个点的平移向量。另一种方法是同时学习点云之间的点匹配，并对初始对应流进行回归精化。在这两种情况下，学习任务都是非常具有挑战性的，因为流回归是在自由的3D空间中完成的，一个典型的解决方案是诉诸一个大型的注释合成数据集。我们引入了SCOOP，这是一种新的场景流估计方法，可以在少量数据上学习，而不需要地面真值流监督。

2023-03-12 15:06:08 350

原创 [论文翻译]PV-RAFT: Point-Voxel Correlation Fields for Scene Flow Estimation of Point Clouds(CVPR 2021)

在本文中，我们提出了一种点-体素递归全对场变换( PV-RAFT )方法来从点云中估计场景流。由于点云具有不规则性和无序性，在三维空间中高效地从所有点对字段中提取特征具有挑战性，其中所有点对相关性在场景流估计中具有重要作用。为了解决这个问题，我们提出了点体相关场，它同时捕获了点对的局部依赖和长程依赖。为了捕获基于点的相关性，我们采用保留局部区域细粒度信息的K近邻搜索。通过对点云进行多尺度体素化，我们构建了金字塔相关体素来建模长距离的对应关系。

2023-03-10 16:35:24 512

原创 [论文翻译]RMS-FlowNet(ICRA 2022)

所提出的RMS - FlowNet是一种新颖的基于端到端学习的架构，可以在高密度的点云上运行，用于准确和高效的场景流估计。对于分层场景流估计，现有的方法要么依赖于昂贵的最远点采样( Farthest Point Sampling，FPS )，要么依赖于基于结构的缩放，从而降低了处理大量点的能力。与这些方法不同，我们基于随机抽样( RS )的全监督架构进行多尺度场景流预测。为此，我们提出了一种新颖的流嵌入设计，结合RS可以预测更加鲁棒的场景流。

2023-03-09 17:19:24 321

原创 [论文简述+翻译]What Matters for 3D Scene Flow Network（ECCV 2022）

从点云中估计三维场景流是计算机视觉中一个低层次的三维运动感知任务。流嵌入是场景流估计中常用的技术，它对连续两帧之间的点运动进行编码。因此，流嵌入对于捕获正确的整体运动方向至关重要。然而，以往的工作只是通过局部搜索来确定软对应关系，忽略了距离较远的点才是真正的匹配点。此外，估计的对应关系通常来自前向相邻点云，可能与从反向获得的估计对应关系不一致。为了解决这些问题，我们在初始场景流估计过程中提出了一种新颖的具有后向可靠性验证的全对全流嵌入层。

2023-03-06 23:24:02 569

原创 [论文简述+翻译]Bi-PointFlowNet: Bidirectional Learning for Point Cloud Based Scene Flow Estimation

场景流估计，即提取场景之间的逐点运动，正成为许多计算机视觉任务中至关重要的任务。然而，现有的估计方法都只利用了单向特征，限制了估计的准确性和通用性。本文提出了一种新颖的使用双向流嵌入层的场景流估计架构。所提出的双向层沿着前向和后向两个方向学习特征，增强了估计性能。此外，分层特征提取和扭曲提高了性能，减少了计算开销。实验结果表明，所提出的架构在FlyingThings3D和KITTI基准测试中取得了优于其他方法的新记录。关键词：场景流估计·点云·双向学习图1 .场景流估计双向学习示意图。

2023-03-03 21:53:16 545 1

原创 [论文翻译]FLOT: Scene Flow on Point Clouds Guided by Optimal Transport(ECCV 2020)

我们提出并研究了一种在点云上估计场景流的方法FLOT。我们开始FLOT的设计是注意到在点云上的场景流估计退化为在完美世界中估计一个置换矩阵。受最近的图匹配工作的启发，我们建立了一种从最优传输中借用工具来寻找这些对应关系的方法。然后，考虑到现实世界的不完美，我们松弛运输约束。两点之间的传输成本由使用合成数据集在完全监督下训练的神经网络提取的深度特征之间的成对相似性给出。我们的主要发现是，FLOT可以在合成数据集和真实数据集上表现出最好的现有方法，同时需要更少的参数，并且不需要使用多尺度分析。

2023-03-02 21:37:42 387

原创 [论文翻译]RCP: Recurrent Closest Point for Point Cloud(2022 CVPR)

包括场景流和点云配准的三维运动估计引起了越来越多的关注。受2D流估计的启发，最近的方法使用深度神经网络构建代价量来估计精确的3D流。然而，这些方法受限于数据结构的不规则性，很难在点云上定义搜索窗口。在本文中，我们通过一种简单而有效的方法来避免这种不规则性。我们将问题分解为两个交织的阶段，其中第一阶段对3D流进行逐点优化，然后在第二阶段在循环网络中进行全局正则化。因此，循环网络只接收规则的逐点信息作为输入。在实验中，我们在三维场景流估计和点云配准任务上对所提方法进行了评估。

2023-02-22 17:09:40 506

原创 [论文简述+翻译]Hierarchical Attention Learning of Scene Flow in 3D Point Clouds(TIP 2021)

场景流表示动态环境中每一点的三维运动。与表示二维图像中像素运动的光流一样，场景流的三维运动表示有利于许多应用，如自动驾驶和服务机器人。本文研究了从两个连续的三维点云进行场景流估计的问题。本文提出了一种新颖的双注意力分层神经网络，用于学习相邻帧中点特征的相关性，逐层由粗到细地细化场景流。提出的网络具有新的more-for-less分层架构。more-for-less意味着场景流估计的输入点数大于输出点数，带来了更多的输入信息，平衡了精度和资源消耗。在这种分层架构中，不同层次的场景流分别被生成和监督。

2023-02-21 21:38:04 880

原创 [论文简述+翻译]FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation(CVPR 2021)

估计场景中点的三维运动，称为场景流，是计算机视觉中的一个核心问题。传统的基于学习的端到端3D流学习方法往往泛化性较差。在这里，我们提出了一个循环架构，它学习一个展开迭代对齐过程的单个步骤，以改进场景流预测。受经典算法的启发，我们利用强正则化证明了迭代收敛到解。所提出的方法可以处理大规模的时间变形，并且比目前具有竞争性的全相关方法具有更小的结构。仅在FlyingThings3D合成数据上进行训练，我们的网络成功地泛化到真实场景，在KITTI自监督基准测试集上大大优于所有现有方法。

2023-02-17 20:42:20 836

原创【论文简述+翻译】PointPWC-Net（ECCV 2020）

我们提出了一种新的端到端的深度场景流模型PointPWC - Net，该模型以由粗到精的方式直接处理具有大运动的三维点云场景。在粗层计算的流被上采样和扭曲到一个更细的层，这可以使算法能够适应大的运动而没有令人望而却步的搜索空间。我们引入了新颖的代价体、上采样和变形层来高效地处理三维点云数据。不同于传统的代价体需要在高维网格上穷举计算所有的代价值，我们的基于点的公式将代价体离散到输入的3D点上，并且PointConv操作高效地计算代价体上的卷积。

2023-02-16 17:59:34 580

原创 [论文翻译]FlowNet3D++: Geometric Losses For Deep Scene Flow Estimation(WACV 2020)

提出了一种深度场景流估计网络FlowNet3D + +。受经典方法的启发，FlowNet3D + +在FlowNet3D中融入了以点到平面距离以及流场中各个向量之间角度对齐的几何约束[ 21 ]。我们证明了这些几何损失项的加入将之前最先进的FlowNet3D精度从57.85 %提高到63.43 %。为了进一步证明我们的几何约束的有效性，我们在动态3D重建的任务上提出了一个流量估计的基准，从而提供了一个比以前用于评估场景流的单个指标更全面和实用的性能度量。

2023-02-14 12:01:49 361

原创 [论文简述+翻译]Just Go with the Flow: Self-Supervised Scene Flow Estimation（CVPR 2020）

当与高动态环境交互时，场景流允许自动系统推理多个独立物体的非刚性运动。这是在自动驾驶领域是特别感兴趣的，其中许多汽车、人、自行车和其他物体都需要精确跟踪。当前最先进的方法需要从自动驾驶场景中标注场景流数据来训练有监督学习的场景流网络。作为替代，我们提出了一种使用两个自监督损失，基于最近邻和循环一致性的场景流训练方法。这些自监督损失允许我们在大量无标签的自动驾驶数据集上训练我们的方法；

2023-02-13 17:55:34 588

原创 [论文简述+翻译]FlowNet3D: Learning Scene Flow in 3D Point Clouds（2019 CVPR）

在机器人和人机交互的许多应用中，可以从理解动态环境中点的三维运动中获益，这被广泛地称为场景流。以往的方法大多以立体图像和RGB - D图像作为输入，很少尝试直接从点云中估计场景流。在这项工作中，我们提出了一种新的深度神经网络FlowNet3D，它以端到端的方式从点云中学习场景流。我们的网络同时学习点云的深层层次特征和表示点运动的流嵌入，并由两个新提出的点集学习层支持。我们在来自FlyingThings3D的挑战性合成数据和来自KITTI的真实Lidar扫描数据上对网络进行评估。

2023-02-09 15:57:30 1217

原创 [论文简述+翻译]PointConv: Deep Convolutional Networks on 3D Point Clouds(CVPR 2019)

与规则稠密网格表示的图像不同，三维点云是不规则和无序的，因此对其进行卷积是困难的。本文将动态滤波器扩展为一种新的卷积操作，命名为PointConv。Point Conv可应用于点云构建深度卷积网络。我们将卷积核视为3D点局部坐标的非线性函数。这个非线性函数由权重和密度函数组成。对于给定的点，通过核密度估计，利用多层感知器网络和密度函数学习权重函数。这项工作最重要的贡献是提出了一种新的重新制定方法，以有效地计算权重函数，从而使我们能够大幅扩大网络的规模，并显著提高其性能。

2023-02-08 16:35:30 975

原创 [论文翻译]SENSE: a Shared Encoder Network for Scene-flow Estimation（ICCV2019）

我们引入了一个用于整体场景流估计的紧凑网络，称为SENSE，它在四个密切相关的任务中共享共同的编码器特征：光流估计、立体视差估计、遮挡估计和语义分割。我们的关键见解是共享特征使得网络更加紧凑，产生出更好的特征表示，并且能够更好地利用这些任务之间的交互来处理部分标记的数据。通过共享编码器，我们可以在训练时为不同的任务灵活地添加解码器。这种模块化设计在推理时导致了一个紧凑而高效的模型。利用这些任务之间的相互作用，我们可以在监督损失之外引入蒸馏和自监督损失，这可以更好地处理部分标记的真实数据。

2023-02-03 14:36:09 307

原创 [论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

已有工作很少研究点集深度学习。Pointnet[ 20 ]是该方向的先驱。然而，通过设计，Pointnet无法得到度量空间点所在的局部结构，限制了其识别细粒图片的能力和对复杂场景的泛化能力。在这项工作中，我们引入了一个分层神经网络，该网络在输入点集的嵌套划分上递归地应用点Pointnet。通过利用度量空间距离，我们的网络能够随着上下文规模的增加学习局部特征。进一步观察到点集通常以不同的密度进行采样，这导致在均匀密度上训练的网络性能大大降低，我们提出了新的点集学习层来自适应地组合来自多个尺度的特征。

2023-02-02 00:14:16 485

原创 [论文翻译]场景流估计的开山之作：Three-Dimensional Scene Flow（ICCV1999）

场景流是世界上点的三维运动场，就像光流是图像中点的二维运动场一样。任何光流都只是场景流在相机像平面上的投影。在本文中，我们提出了一个从光流计算稠密、非刚性场景流的框架。我们的方法为简单的线性算法，并将任务分类为三个主要场景：( 1 )完整的场景结构的瞬时知识，( 2 )仅有对应信息的知识，( 3 )没有场景结构的知识。我们还表明，在没有某种形式的平滑或正则化的情况下，无法直接使用正常流的多个估计来估计稠密场景流。

2023-01-30 14:48:29 1567

原创【论文简析+解读+Pytorch实现】PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

这篇作为点云深度学习的开山之作，给出了一种直接用点云作为数据输入，用于分类、分割等任务的神经网络框架。该网络尽管结构简单，但是高效且有效。

2023-01-16 00:01:10 729

Javier.Lin_HUST的博客