论文
文章平均质量分 94
玛卡巴卡_qin
这个作者很懒,什么都没留下…
展开
-
On Moving Object Segmentation from Monocular Video with Transformers 论文阅读
通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外观和运动特征来进行分类和分割。在本文中,我们提出了一种用于单目运动分割的新颖融合架构 - M3Former,它利用Transformer的强大性能进行分割和多模态融合。由于从单目视频重建运动是不适定的,我们系统地分析了该问题的不同 2D 和 3D 运动表示及其对分割性能的重要性。原创 2023-10-25 17:03:37 · 1235 阅读 · 0 评论 -
Monocular arbitrary moving object discovery and segmentation 论文阅读
我们提出了一种发现和分割场景中独立移动的物体或其部分的方法。给定三个单眼视频帧,该方法输出语义上有意义的区域,即对应于整个对象的区域,即使只有其中一部分移动。基于 CNN 的端到端方法的架构称为 Raptor,它结合了语义和运动主干,将其输出传递到最终的区域分割网络。语义主干以与类无关的方式进行训练,以便泛化到训练数据之外的对象类。运动分支的核心是根据光流、光学扩展、单深度和估计的相机运动计算出的几何成本量。原创 2023-10-24 22:10:27 · 900 阅读 · 0 评论 -
DRL-VO: Learning to Navigate Through Crowded Dynamic Scenes Using Velocity Obstacles 论文阅读
本文提出了一种新颖的基于学习的控制策略,该策略对新环境具有很强的通用性,使移动机器人能够在充满静态障碍物和密集行人的空间中自主导航。该策略使用输入数据的独特组合来生成所需的转向角度和前进速度:激光雷达数据的简短历史记录、附近行人的运动学数据以及子目标点。该策略在强化学习环境中使用奖励函数进行训练,该函数包含一个基于速度障碍的新术语,以引导机器人主动避开行人并朝着目标移动。原创 2023-09-25 09:29:40 · 485 阅读 · 0 评论 -
Learned-Based VO 梳理(USTC Paper Reading)
简答介绍SLAM框架,引入VO问题直接从Learned VO开始,介绍VO问题的相关研究,总结当前研究存在的问题讨论Dynamic VO中的相关做法,总结问题,提出想法拓展VO 和navigation的关系。原创 2023-09-21 16:21:20 · 260 阅读 · 0 评论 -
深度学习相关VO梳理
基于学习的VO 相关:DeepVO Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks(ICRA,2017)TartanVO: A Generalizable Learning-based VO(CoRL2021)SimVODIS: Simultaneous Visual Odometry ,Object Detection, and Instance Segmentation(PAM原创 2023-09-09 10:27:31 · 695 阅读 · 0 评论 -
Competitive Collaboration 论文阅读
我们解决了低级视觉中几个相互关联问题的无监督学习:单视图深度预测、相机运动估计、光流以及将视频分割为静态场景和移动区域。我们的主要见解是这四个基本视觉问题通过几何约束耦合在一起。因此,学习一起解决它们可以简化问题,因为这些解决方案可以相互促进。我们通过更明确地利用几何形状并将场景分割为静态和移动区域,超越了之前的工作。为此,我们引入了竞争性协作,这是一个促进多个专业神经网络协调训练以解决复杂问题的框架。原创 2023-09-08 10:37:20 · 617 阅读 · 1 评论 -
GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 论文阅读
我们提出了 GeoNet,这是一种联合无监督学习框架,用于视频中的单目深度、光流和自我运动估计。这三个组件通过 3D 场景几何的性质耦合在一起,由我们的框架以端到端的方式共同学习。具体来说,根据各个模块的预测提取几何关系,然后将其组合为图像重建损失,分别对静态和动态场景部分进行推理。此外,我们提出了一种自适应几何一致性损失,以提高对异常值和非朗伯区域的鲁棒性,从而有效地解决遮挡和纹理模糊问题。原创 2023-09-07 23:24:25 · 1289 阅读 · 0 评论 -
MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 论文阅读
深度学习的最新进展使移动机器人能够以自我监督的方式联合学习自我运动和深度图。然而,现有的方法受到尺度模糊问题和环境问题的困扰,阻碍了实际应用。我们的工作旨在通过提出一种自监督视觉里程计模型来解决这两个问题,该模型利用图像序列的时间依赖性并从单目相机产生尺度一致的运动变换。我们提出的框架与新颖的掩模网络集成,以提供可学习的动态掩模,减少场景动态和照明变化的影响。原创 2023-09-07 19:33:21 · 788 阅读 · 0 评论 -
SimVODIS: Simultaneous Visual Odometry , Object Detection, and Instance Segmentation 论文阅读
智能代理需要了解周围环境,以便为人类提供有意义的服务或与人类进行智能交互。代理应该感知环境中固有的几何特征和语义实体。现代方法通常一次提供一种有关环境的信息,这使得执行高级任务变得困难。此外,运行两种类型的方法并关联两种结果信息需要大量计算并使软件架构复杂化。为了克服这些限制,我们提出了一种在单个线程中同时执行几何和语义任务的神经架构:同时视觉里程计、对象检测和实例分割(SimVODIS)。SimVODIS 建立在 Mask-RCNN 之上,并以监督方式进行训练。原创 2023-09-07 11:09:25 · 137 阅读 · 0 评论 -
SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读
语义的缺乏和动态对象导致的性能下降阻碍了其在现实场景中的应用。为了克服这些限制,我们在Simultanerous VO、Object Detection和Instance segmentation (SimVODIS) 网络之上设计了一种新颖的神经语义视觉里程计 (VO) 架构。接下来,我们提出了一种具有多任务学习形式的专用姿态估计架构,用于处理动态对象和 VO 性能增强。此外,SimVODIS++ 专注于显着区域,同时排除无特征区域。原创 2023-09-06 19:20:19 · 548 阅读 · 0 评论 -
OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 论文阅读
我们提出了一个由与任务无关的组件(ViT、卷积和 LSTM)组成的单一神经网络架构,该架构在 IMAGENAV(“转到 中的位置”)和 OBJECTNAV(“查找椅子”)任务没有任何特定于任务的模块,如对象检测、分割、映射或规划模块。这种通用方法具有设计简单、利用可用计算进行正扩展以及对多种任务具有通用性等优点。我们的工作建立在最近成功的预训练视觉变换器(ViT)自我监督学习(SSL)的基础上。原创 2023-08-24 17:35:05 · 756 阅读 · 0 评论 -
The Surprising Effectiveness of Visual Odometry Techniques for Embodied PointGoal Navigation 论文阅读
个人机器人可靠地导航到指定目标至关重要。为了研究这项任务,在模拟的 Embodied AI 环境中引入了 PointGoal 导航。最近的进展在逼真的模拟环境中以近乎完美的精度(99.6% 的成功率)解决了 PointGoal 导航任务,假设无噪声的自我中心视觉、无噪声的驱动以及最重要的是完美的定位。然而,在视觉传感器和驱动的真实噪声模型下,并且无法访问“GPS 和指南针传感器”,PointGoal 导航的 99.6% 成功代理仅成功了 0.3%。原创 2023-08-23 11:05:49 · 138 阅读 · 0 评论 -
OrienterNet: visual localization in 2D public maps with neural matching 论文阅读
人类可以使用简单的 2D 地图在 3D 环境中定位自己。不同的是,视觉定位算法主要依赖于复杂的 3D 点云,随着时间的推移,这些点云的构建、存储和维护成本高昂。我们通过引入 OrienterNet 来弥补这一差距,这是第一个深度神经网络,可以使用与人类使用的相同的 2D 语义图以亚米级精度定位图像。OrienterNet 通过将神经鸟瞰图与 OpenStreetMap 中开放且全局可用的地图进行匹配来估计查询图像的位置和方向,使任何人都可以在任何此类地图可用的地方进行本地化。原创 2023-08-22 10:25:56 · 1109 阅读 · 0 评论 -
HuNavSim: a ROS 2 human navigation simulator for benchmarking human-aware robot navigation 论文阅读
这项工作提出了人类导航模拟器(HuNavSim),这是一种新颖的开源工具,用于模拟移动机器人场景中不同的人类代理导航行为。该工具首次在 ROS 2 框架下编程,可以与 Gazebo 等不同的知名机器人模拟器一起使用。主要目标是简化仿真中人类感知机器人导航系统的开发和评估。除了通用的人类导航模型之外,HuNavSim 还具有新颖性,包括一组丰富的个人和现实的人类导航行为以及一整套用于社交导航基准测试的指标。原创 2023-08-17 15:28:46 · 272 阅读 · 0 评论 -
Local Map-Based DQN Navigation and a Transferability Metric Using Scene Similarity 论文阅读
在没有全球地图的未知环境中进行自主导航是移动机器人面临的长期挑战。虽然深度强化学习(DRL)因其泛化能力而引起了人们对解决此类自主导航问题的兴趣迅速增长,但由于训练场景与实际测试场景之间的差距,DRL 在实践中通常会导致平庸的导航性能。大多数现有工作都集中在调整算法以增强其可迁移性,而很少研究如何量化或测量其之间的差距。本文提出了一种基于局部地图的深度 Q 网络 (DQN) 导航算法,该算法使用从 2D LiDAR 数据转换而来的局部地图作为观测值,而无需全局地图。原创 2023-08-13 17:49:18 · 170 阅读 · 0 评论 -
Multi-object navigation in real environments using hybrid policies 论文阅读
机器人技术中的导航问题通常是通过SLAM 和规划的结合来解决的。最近,除了航路点规划之外,涉及(视觉)高级推理重要组成部分的问题也在模拟环境中得到了探索,这些问题大多通过大规模机器学习来解决,特别是强化学习、离线强化学习或模仿学习。这些方法要求智能体学习各种技能,例如局部规划、绘制对象和查询所学习的空间表示。与航点规划(PointGoal)等更简单的任务相比,对于这些更复杂的任务,当前最先进的模型已经在模拟中进行了彻底的评估,但据我们所知,尚未在真实环境中进行评估。在这项工作中,我们重点关注。原创 2023-08-13 11:28:31 · 1307 阅读 · 0 评论 -
Exploiting Proximity-Aware Tasks for Embodied Social Navigation 论文阅读
学习如何在封闭且空间受限的室内环境中在人类之间导航,是体现主体融入我们社会所需的关键能力。在本文中,我们提出了一种端到端架构,该架构利用邻近感知任务(称为风险和邻近指南针)将推断常识性社会行为的能力注入到强化学习导航策略中。为此,我们的任务利用了当前和未来碰撞危险(immediate and future dangers of collision)的概念。此外,我们提出了一种专门为模拟环境中的社交导航任务设计的评估协议。原创 2023-08-12 17:55:33 · 813 阅读 · 0 评论 -
TartanVO: A Generalizable Learning-based VO 论文阅读
我们提出了第一个基于学习的视觉里程计(VO)模型,该模型可推广到多个数据集和现实场景,并且在具有挑战性的场景中优于基于几何的方法。我们通过利用 SLAM 数据集TartanAir来实现这一目标,该数据集在具有挑战性的环境中提供了大量多样化的合成数据。此外,为了使我们的 VO 模型能够跨数据集泛化,我们提出了一个大规模损失函数,并将相机内在参数合并到模型中。原创 2023-08-09 18:14:52 · 2356 阅读 · 0 评论 -
DytanVO:Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments 论文阅读
基于学习的视觉里程计(VO)算法受益于大容量模型和大量注释数据,在常见的静态场景中取得了显着的性能,但在动态、人口稠密的环境中往往会失败。语义分割主要用于在估计相机运动之前丢弃动态关联,但代价是丢弃静态特征,并且很难扩展到看不见的类别。在本文中,我们利用相机自我运动和运动分割之间的相互依赖,并表明两者可以在一个基于学习的框架中共同完善。特别是,我们提出了 DytanVO,这是第一个处理动态环境的基于监督学习的 VO 方法。它实时获取两个连续的单目帧,并以迭代方式预测相机的自我运动。原创 2023-08-09 12:17:23 · 288 阅读 · 1 评论 -
One-4-All: Neural Potential Fields for Embodied Navigation 论文阅读
现实世界的导航可能需要使用高维 RGB 图像进行长视野规划,这对基于端到端学习的方法提出了巨大的挑战。目前的半参数方法通过将学习的模块与环境的拓扑记忆相结合来实现长范围导航,通常表示为先前收集的图像上的图形。然而,在实践中使用这些图需要调整一些修剪启发法。这些启发式对于避免虚假边缘、限制运行时内存使用以及在大型环境中保持相当快速的图形查询是必要的。我们提出了 One-4-All (O4A),这是一种利用自监督和流形学习来获得无图、端到端导航管道的方法,其中目标被指定为图像。原创 2023-08-07 17:37:23 · 1156 阅读 · 0 评论 -
Benchmarking Augmentation Methods for Learning Robust Navigation Agents 论文阅读
深度强化学习和可扩展的真实感模拟的最新进展使得用于各种视觉任务(包括导航)的具体人工智能日益成熟。然而,虽然在教导实体主体在静态环境中导航方面取得了令人印象深刻的进展,但在可能包括移动行人或可移动障碍物的动态环境中却取得了较少的进展。在这项研究中,我们的目标是对不同的增强技术进行基准测试,以提高代理在这些具有挑战性的环境中的性能。我们表明,在训练过程中向场景中添加几个动态障碍可以显着提高测试时泛化能力,从而实现比基线智能体更高的成功率。我们发现这种方法还可以与图像增强方法相结合,以获得更高的成功率。原创 2023-08-07 10:09:25 · 1222 阅读 · 0 评论 -
Crowd-Robot Interaction 论文阅读
对于在拥挤空间中运行的机器人来说,以有效且符合社会规范的方式进行移动是一项重要但具有挑战性的任务。最近的工作显示了深度强化学习技术在学习社会合作政策方面的力量。然而,随着人群的增长,他们的合作能力会下降,因为他们通常将问题放松为单向人机交互问题。在这项工作中,我们希望超越一阶人机交互,并更明确地模拟人群与机器人交互(CRI)。我们建议(i)重新思考与自注意力机制的成对交互(ii)在深度强化学习框架中联合建模人与机器人以及人与人的交互。原创 2023-08-06 17:42:56 · 1227 阅读 · 0 评论 -
On Evaluation of Embodied Navigation Agents 论文阅读
过去两年,导航方面的创造性工作激增。这种创造性的输出产生了大量有时不兼容的任务定义和评估协议。为了协调该领域正在进行和未来的研究,我们召集了一个工作组来研究导航研究的实证方法。本文件总结了该工作组的共识建议。我们讨论不同的问题陈述和泛化的作用,提出评估措施,并提供可用于基准测试的标准场景。原创 2023-08-06 11:58:58 · 1530 阅读 · 0 评论 -
Last-Mile Embodied Visual Navigation 论文阅读
现实的长期任务(例如图像目标导航)涉及探索和利用阶段。分配有目标图像后,具体代理必须探索以发现目标,即使用学习到的先验进行有效搜索。一旦发现目标,代理必须准确校准到目标的最后一英里导航。与任何强大的系统一样,探索性目标发现和利用性最后一英里导航之间的切换可以更好地从错误中恢复。遵循这些直观的导轨,我们提出 SLING 来提高现有图像目标导航系统的性能。完全补充现有方法,我们专注于最后一英里导航,并通过神经描述符利用问题的底层几何结构。原创 2023-08-05 18:04:50 · 1978 阅读 · 0 评论 -
NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 论文阅读
我们提出了一种新颖的几何和光度 3D 映射流程,用于从单目图像进行准确、实时的场景重建。为了实现这一目标,我们利用了密集单目 SLAM 和实时分层体积神经辐射场的最新进展。我们的见解是,密集单目 SLAM 通过提供准确的姿态估计和具有相关不确定性的深度图,提供正确的信息来实时拟合场景的神经辐射场。通过我们提出的基于不确定性的深度损失,我们不仅实现了良好的光度精度,而且还实现了很高的几何精度。原创 2023-08-03 21:58:56 · 2111 阅读 · 2 评论 -
A Survey of Embodied AI: From Simulators to Research Tasks 论文阅读
通过评估当前的九个具体人工智能模拟器与我们提出的七个功能,本文旨在了解模拟器在具体人工智能研究中的使用及其局限性。本文调查了实体人工智能的三个主要研究任务——视觉探索、视觉导航和实体问答(QA),涵盖了最先进的方法评估指标和数据集。最后,通过对该领域的调查所揭示的新见解,本文将为任务选择模拟器提供建议,并对该领域的未来方向提出建议。原创 2023-08-02 17:53:19 · 1447 阅读 · 0 评论 -
LEARNING TO EXPLORE USING ACTIVE NEURAL SLAM 论文阅读
这项工作提出了一种模块化和分层的方法来学习探索 3D 环境的策略,称为“Active Neural SLAM”。我们的方法结合了经典方法和基于学习的方法的优势,通过使用带有学习 SLAM 模块的分析路径规划器以及全局和本地策略。学习的使用提供了输入模式(在 SLAM 模块中)方面的灵活性,利用了世界的结构规律(在全局策略中),并为状态估计中的错误(在本地策略中)提供了鲁棒性。原创 2023-08-01 18:27:58 · 1482 阅读 · 0 评论 -
DeepVO 论文阅读
大多数现有的单目视觉里程计(VO)算法都是在标准流程下开发的,包括特征提取、特征匹配、运动估计、局部优化等。虽然其中一些算法已经表现出优越的性能,但它们通常需要仔细设计和专门微调才能正常工作在不同的环境中。恢复单眼 VO 的绝对尺度还需要一些先验知识。本文通过使用深度循环卷积神经网络 (RCNNs) ,提出了一种新颖的单目 VO 端到端框架。由于它是以端到端的方式进行训练和部署的,因此它可以直接从一系列原始RGB图像(视频)数据中推断出相机姿态,无需采用传统VO管道中的任何模块。原创 2023-07-31 13:05:45 · 1520 阅读 · 1 评论 -
NICE-SLAM: Neural Implicit Scalable Encoding for SLAM论文阅读
神经隐式(Neural implicit representations)表示最近在同步定位和地图绘制(SLAM)方面有一定的进展,但现有方法会产生过度平滑的场景重建,并且难以扩展到大型场景。这些限制主要是由于其简单的全连接网络架构,未在观测中纳入本地信息。我们提出了 NICE-SLAM,这是一种密集 SLAM 系统,通过引入分层场景表示来合并多级局部信息。使用预先训练的几何先验优化这种表示,可以实现大型室内场景的详细重建。与最近的神经隐式 SLAM 系统相比,我们的方法更具可扩展性、高效性和鲁棒性。原创 2023-07-29 16:39:51 · 1738 阅读 · 0 评论 -
Retrospectives on the Embodied AI Workshop(嵌入式人工智能研讨会回顾) 论文阅读
我们的分析重点关注 CVPR Embodied AI Workshop 上提出的 13 个挑战。这些挑战分为三个主题:(1) visual navigation。原创 2023-07-27 15:23:56 · 1497 阅读 · 0 评论 -
Is Mapping Necessary for Realistic PointGoal Navigation 论文阅读和代码分析
目标:证明显式地图不是成功导航的必要条件。对比实验数据集(模拟器):无地图导航模型的标准数据集Gibson。模拟器和现实世界的区别:本体感知(位置和方向)、观测噪声、动力学噪声。理想环境:位置和方向信息 + 没有RGB-D传感器噪声和驱动噪声:100%现实环境:没有位置和方向信息 + RGB-D传感器噪声和驱动噪声:71.7%实验环境:位置和方向信息 + RGB-D传感器噪声和驱动噪声:97%([39])、99.8%(本论文)证实了唯一的性能限制因素是智能体的自我定位能力。原创 2023-07-26 17:09:42 · 1685 阅读 · 0 评论 -
DROID-SLAM文章阅读
我们介绍 DROID-SLAM,一种新的基于深度学习的 SLAM 系统。DROIDSLAM 由通过密集束调整层()对相机姿态和像素深度进行循环迭代更新组成。DROID-SLAM 非常准确,比之前的工作取得了很大的改进,而且很稳健,灾难性故障的发生率大大降低。尽管使用单目视频进行训练,但它可以利用立体或 RGB-D 视频来提高测试时的性能。原创 2023-07-24 16:52:55 · 843 阅读 · 0 评论