论文速读系列（1）

嘉子的秃头日记

于 2023-03-15 13:21:42 发布

阅读量105

点赞数

文章标签：计算机视觉

本文链接：https://blog.csdn.net/reyssalee/article/details/129502595

版权

前言：论文速读的技巧

论文速读是一项重要的技能，可以帮助你更快地理解文献，提高学习和研究效率。以下是一些论文速读的技巧：

了解论文结构：首先，浏览论文的标题、摘要和引言，了解作者的研究目的和主要结论。接着，查看文章中的章节和子章节，了解论文的组织结构，以便更快地阅读和理解。

精读关键部分：一旦了解了论文的结构，可以开始更深入地阅读。但不需要完全阅读每一个细节。关注论文中的重点部分，例如引言、方法、结果和讨论，以及任何与你的研究问题相关的内容。

注重图表：论文中的图表可以帮助你更快地理解文章内容。特别是，重点关注数据图表、图像和图表标题，以便更好地理解作者的主要结论。

省略次要细节：不必太过于纠结细节，如某个特定数据的数值等。相反，关注文章的主要信息和结论，以便更快地掌握文章内容。

多练习：快速阅读需要一些练习和实践。在阅读更多的论文时，逐渐提高自己的阅读速度和理解能力。

使用工具：使用工具，如PDF阅读器、文献管理软件等，可以帮助你更好地组织和管理你的阅读材料。一些PDF阅读器还提供高亮、注释和书签等功能，使你更容易理解和回顾文章内容。

培养阅读兴趣：快速阅读并不意味着忽略文章的重要性。尽可能培养阅读兴趣，以便更好地理解和掌握论文的内容。

一、Real-Time Seamless Single Shot 6D Object Pose Prediction

摘要：我们提出了一种单次拍摄方法，用于同时检测RGB图像中的对象并预测其6D姿态，而不需要多个阶段或检查多个假设。与最近提出的用于类似任务的单次拍摄技术不同--该技术仅能预测大约的6D姿态，然后必须对其进行改进；我们的技术非常精确，不需要额外的后期处理。事实上，它的速度快得多，在Titan X（Pascal）GPU上为50 fps，更适合实时处理。我们方法的关键组成部分是受到启发的一种新的CNN架构，它直接预测对象的3D边界框的投影顶点的2D图像位置。然后使用PnP算法估计对象的6D姿态。

对于LINEMOD和OCCLUSTION数据集上的单目标和多目标姿态估计，我们的方法大大优于最近其他未经后处理的基于CNN的方法。在后处理过程中，可以使用姿势细化步骤来提高这两种方法的精度，但在10 fps或更低的速度下，其他方法比我们的方法慢得多。

结论：我们提出了一个新的CNN架构，用于快速准确的单次6D姿势预测，自然地将单次2D物体检测范式扩展到6D物体检测。我们的网络预测物体三维边界框角投影的二维位置，这只需要比二维边界框回归多预测几个二维点。考虑到预测的二维角投影，6维姿态是通过有效的PnP方法计算出来的。为了获得高精确度，现有的基于CNN的6D物体检测器都在后处理过程中完善其姿态估计，这一步骤需要精确的3D物体模型，并且每个检测到的物体都会产生运行时间的开销。相比之下，我们的单次拍摄预测非常准确，这就免去了细化的需要。因此，我们的方法不依赖于三维物体模型的访问，在估计多个物体的姿势时几乎没有开销。我们的方法是实时的；它以50-94 fps的速度运行，取决于图像的分辨率。这使得它比现有的方法要快很多。

二、DeepPose: Human Pose Estimation via Deep Neural Networks

摘要：我们提出了一种基于深度神经网络的人体姿态估计方法。姿态估计公式化为基于DNN的对人体关节的回归问题。我们描述了一连串的这种DNN算法高精度姿态估计的结果的回归因子。该方法具有以整体方式推理姿势的优势，并且具有简单但强大的公式，它利用了深度学习的最新进展。我们进行了详细的实证分析，针对不同真实世界图像的四个学术基准，展现了最先进或更好的性能。

结论：我们提出了，据我们所知，第一个将深度神经网络（DNNs）应用于人体姿势估计的问题。我们将该问题表述为基于DNN的关节坐标回归，并提出了这种回归器的级联，其优点是以整体的方式捕获背景和推理姿势。因此，我们能够在几个具有挑战性的学术数据集上取得最先进或更好的结果。此外，我们表明，使用一个通用的卷积神经网络，它最初是为分类任务设计的，可以应用于不同的定位任务。在未来，我们计划研究新的架构，这些架构有可能更好地适应一般的定位问题，特别是姿势估计。

三、Monocular 3D Object Detection with Pseudo-LiDAR Point Cloud

摘要：单目3D场景理解任务，如目标尺寸估计、航向角估计和3D定位，是一项具有挑战性的任务。现代成功的3D场景理解方法需要使用3D传感器。另一方面，基于单个图像的方法具有明显较差的性能。在这项工作中，我们的目标是通过增强基于LiDAR的算法以处理单个图像输入，来弥补3D传感和2D传感之间的性能差距，以实现3D物体检测。具体来说，我们执行单目深度估计，并将输入图像提升为点云表示，我们称之为伪LiDAR点云。然后，我们可以用我们的伪LiDAR端对端训练基于LiDAR的3D检测网络。按照两阶段 3D 检测算法的流程，我们检测输入图像中的 2D 目标方案，并为每个方案从伪 LiDAR 中提取点云视锥体。然后为每个视锥体检测定向3D边界框。为了处理伪 LiDAR 中的大量噪声，我们提出了两项创新：使用2D-3D边界框一致性约束，在投影到图像上后，调整预测的3D边界框，使其与相应的2D方案具有高度重叠；使用实例掩膜而不是边界框作为2D方案的表示，以减少不属于点云视锥体中对象的点的数量。通过我们对KITTI基准的评估，在所有单眼方法中，我们在鸟瞰图和3D物体检测方面都取得了最高的性能，有效地将性能提高了四倍。代码https://github.com/xinshuoweng/Mono3D_PLiDAR.

结论：在本文中，我们提出了一个新的单眼3D物体检测工艺流程，它可以增强基于LiDAR的算法，使其在不需要3D传感器（如立体相机、深度相机或LiDAR）的情况下，也能处理单一的图像输入。流程的基本步骤是将二维输入图像提升为三维点云，我们称之为伪激光雷达点云。为了处理由伪激光雷达中的噪声引起的局部错位和长尾问题，我们提议：（1）使用2D-3D边界框一致性约束来完善我们的3D边界框估计；（2）使用实例掩码建议来生成点云边缘。重要的是，我们的方法在KITTI鸟瞰图和三维物体检测基准上取得了在所有单眼方法中排名第一的性能，比以前最先进的性能翻了四倍。虽然我们的重点是单眼3D物体检测，但我们的方法可以很容易地扩展到立体图像输入。

四、Learning to Estimate 3D Human Pose and Shape from a Single Color Image

摘要：这项工作解决了从单一颜色图像估计全身3D人体姿势和形状的问题。这是一项基于迭代优化的解决方案通常占上风的任务，而卷积网络（ConvNets）由于缺乏训练数据和低分辨率的三维预测而受到影响。我们的工作旨在弥合这一差距，并提出了一种基于卷积网的高效和有效的直接预测方法。我们的方法的核心部分是在我们的端到端框架内纳入一个参数化的统计体形模型（SMPL）。这使我们能够得到非常详细的三维网格结果，同时只需要估计少量的参数，使其对直接网络预测很友好。有趣的是，我们证明这些参数只能从二维关键点和掩码中可靠地预测出来。这些都是通用的二维人体分析卷积网络的典型输出，使我们能够放宽对具有三维形状基础真相的图像进行训练的大量要求。同时，通过保持可分性，在训练时我们从估计的参数中生成三维网格，并使用三维每顶点损失对表面进行明确优化。最后，我们采用可分化的渲染器将三维网格投射到图像上，通过优化投影与二维注释（即二维关键点或掩码）的一致性，实现网络的进一步细化。所提出的方法在这一任务上优于以前的基准，为从单一彩色图像直接预测三维形状提供了一个有吸引力的解决方案。

三维姿势可以从二维姿势中可靠地估计出来，而形状可以从轮廓测量中推断出来。这一观察结果方便地将问题分解为：a）从彩色图像中估计关键点和掩码；b）从二维图像中预测三维姿势和形状。这种做法的好处是，该框架可以在不需要三维形状真实的图像的情况下进行训练。

我们的目标是学习从轮廓和关键点到模型参数的映射，因此我们可以合成身体模型的姿态，并将其投射到图像平面，以模拟网络工作的输入。我们只需要一个取样姿势参数的源，和一个取样身体形状参数的源。来自不同视点的投影也可用于数据的增强。

结论：本文的目标是提出一种可行的基于ConvNet的方法，从一张彩色图像中预测三维人体姿势和形状。我们解决方案的核心部分是在端到端框架中加入了一个身体形状模型，即SMPL。通过这种整合，我们实现了：a)从二维关键点和剪影预测参数；b)在训练时使用监督表面的每顶点损失来生成全身的三维网格；c)整合一个可区分的渲染器，使用二维注释进一步进行端到端的细化。我们的方法在相关基准上取得了最先进的结果，超过了以前的直接预测和基于优化的三维姿势和形状预测的解决方案。最后，考虑到我们方法的效率，我们展示了其加速和改善典型的迭代优化管道的潜力。

嘉子的秃头日记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文速读系列（1）

论文速读是一项重要的技能，可以帮助你更快地理解文献，提高学习和研究效率。以下是一些论文速读的技巧：了解论文结构：首先，浏览论文的标题、摘要和引言，了解作者的研究目的和主要结论。接着，查看文章中的章节和子章节，了解论文的组织结构，以便更快地阅读和理解。精读关键部分：一旦了解了论文的结构，可以开始更深入地阅读。但不需要完全阅读每一个细节。关注论文中的重点部分，例如引言、方法、结果和讨论，以及任何与你的研究问题相关的内容。注重图表：论文中的图表可以帮助你更快地理解文章内容。特别是，重点关注数据图表、图
复制链接

扫一扫