AIRV_Gao-CSDN博客

原创 TRILL解析

我们用深度模仿学习解决了开发**人形机器人局部操作（humanoid loco-manipulation）**技能的问题。为具有高度自由度的类人机器人收集任务演示和训练策略的困难提出了实质性的挑战。我们介绍了TRILL，这是一个数据高效的框架，用于从人类演示中训练类人机器人局部操作策略。在这个框架中，我们通过一个直观的虚拟现实(VR)界面收集人类演示数据。我们采用全身控制方式（whole-body control formulation）

2024-05-07 16:42:56 954

原创 CyberDemo解读

我们介绍了CyberDemo，这是一种机器人模仿学习的新方法，利用模拟人类演示来完成现实世界的任务。通过在模拟环境中整合广泛的数据增强，CyberDemo在转移到现实世界时，处理各种物理和视觉条件，优于传统的域内真实世界演示。尽管在数据收集方面价格低廉且方便，但就各种任务的成功率而言，CyberDemo优于基准方法，并且在以前未见过的对象上表现出通用性。例如，它可以旋转新的tetra-valve和penta-valve，尽管人类只演示了tri-valves。

2024-05-06 15:32:15 863

原创 A Dexterous Hand-Arm Teleoperation System

基于无标记视觉的远程操作，利用计算机视觉的创新，为多指机器人的手提供了自然和无创的手指运动的优势。然而，目前的姿态估计方法仍然面临手指自咬合的不准确性问题。在此，我们开发了一种新的基于视觉的手-臂远程操作系统，该系统可以从最佳视点和合适的距离捕获人手。该远程操作系统由端到端手部姿态回归网络和可控主动视觉系统组成。端到端姿态回归网络()结合辅助重建损失函数，通过低成本的深度相机捕获人手，并基于图像到图像的转换方法预测机器人的联合命令。

2024-05-05 22:21:01 1281

原创运动重定向：R2ET

如果不合理地考虑骨架和形状几何水平上的 source-target 差异，就无法实现良好的运动重定向。在这项工作中，我们提出了一种新的残差重定向网络(R2ET)结构，该结构依靠两个神经修饰模块来逐步调整源运动以适应目标骨架和形状。特别地，引入了骨架感知模块来保持源运动语义。设计了一个形状感知模块来感知目标特征的几何形状，以减少相互渗透和接触缺失。在我们探索的基于距离的损失的驱动下，明确地建模运动语义和几何。

2024-01-15 13:53:17 956

原创 GAP：Skeleton-based Action Recognition

基于骨骼的动作识别最近受到了相当大的关注。当前基于骨架的动作识别方法通常被表述为一个热门的分类任务，并且没有充分利用动作之间的语义关系。例如，“做胜利手势”和“竖起大拇指”是手势的两种动作，它们的主要区别在于手的动作。这些信息与动作类的分类编码无关，但可以从动作描述中揭示出来。因此，在训练中使用动作描述可能有利于表征学习。在这项工作中，我们提出了一种基于骨架的动作识别的生成动作描述提示GAP)方法。具体而言，我们采用预训练的大规模语言模型作为知识引擎，自动生成动作肢体运动的文本描述。

2024-01-13 22:36:19 1162

原创姿态估计：DiffPose

由于固有的模糊性和遮挡，单目三维人体姿态估计具有很大的挑战性，这往往导致高度的不确定性和不确定性。另一方面，扩散模型（diffusion models）最近成为从噪声中生成高质量图像的有效工具。受其能力的启发，我们探索了一种新的姿态估计框架(DiffPose)，该框架将3D姿态估计制定为反向扩散过程。一个姿态不确定性分布的姿态特定初始化一个基于高斯混合模型的正向扩散过程，以及一个情境条件下的反向扩散过程。

2023-12-29 23:20:09 1311

原创视频姿态估计：DeciWatch

本文提出了一个简单的基线框架，用于基于视频的2D/3D人体姿态估计，可以在不降低任何性能的情况下实现10倍的效率提高，称为DeciWatch。与目前估计视频中每帧的解决方案不同，DeciWatch引入了一个简单而有效的采样-降噪恢复框架，该框架仅观察稀疏采样帧，利用人体运动的连续性和轻量级姿态表示。具体来说，DeciWatch均匀采样少于10%的视频帧进行详细估计，使用高效的Transformer架构对估计的2D/3D姿势进行降噪，然后使用另一个基于Transformer的网络准确恢复其余帧。

2023-12-22 22:53:49 1492

原创灵巧手操作模仿学习：DexMV

虽然计算机视觉在理解手-物交互（hand-object interactions）方面取得了重大进展，但对于机器人来说，进行复杂的灵巧操作仍然是非常具有挑战性的。本文提出了一种新的模仿学习平台和 pipeline DexMV (Dexterous Manipulation from Videos)。我们设计了一个平台，其中包括:(i) 一个模拟系统，用于多手指机械手的复杂灵巧操作任务;(ii)一个计算机视觉系统，用于记录大规模演示人手执行相同任务。在我们的新 pipeline 中，我们。

2023-12-19 17:48:06 1274

原创 Dexterous Grasping: GraspGF

在人的手可能不可用或不合适的情况下，使用拟人化的机器人手来帮助个人已经变得非常重要。在本文中，我们提出了一种新的任务，称为人类辅助灵巧抓取（human-assisting dexterous grasping），旨在训练控制机器人手手指的策略，以帮助用户抓取物体。与传统的灵巧抓取不同，这项任务提出了一个更复杂的挑战，因为除了物体的几何形状外，策略还需要适应不同的用户意图。我们提出了一种由两个子模块组成的方法来解决这一挑战:（1）一个称为。

2023-12-12 15:05:24 140

原创运动重定向：C-3PO-v1

动作模仿是机器人的基本沟通技能;尤其是与人类的非语言互动。由于人与机器人的运动学构型存在差异，确定两种姿态域之间的适当映射具有挑战性。此外，在从人体运动视频中提取3D运动细节(如手腕关节运动)时，技术限制导致运动重定向面临重大挑战。在不同运动域上的显式映射表明了一个相当低效的解决方案。为了解决这些问题，我们提出了一种三阶段强化学习方案，使NAO机器人能够从从视频输入中提取的人体姿态骨架中学习运动。我们的学习计划包括三个阶段（1）第一阶段为学习准备（2）第二阶段是基于模拟的强化学习。

2023-12-11 15:35:58 147

原创运动重定向：C-3PO

在不同尺寸和运动学构型的同质多形体之间进行运动重定位需要全面的(逆)运动学知识。此外，提供一个与运动无关的通解是困难的。在本研究中，我们开发了一种基于深度强化学习的人-机器人运动重定向**循环三阶段（cyclic three-phase）**优化方法。该方法通过循环路径和滤波路径在潜在空间中使用精细数据进行运动重定向学习。此外，基于人在环的三阶段方法从定量和定性两方面为改进运动重定向策略提供了一个框架。利用所提出的C-3PO方法，我们成功地学习了NAOPepperBaxter和。

2023-12-10 17:18:01 408

原创重定向：基于神经网络优化的方法

从人的演示到机器人的运动重定向是降低机器人编程专业要求和工作量的有效途径，但也面临着人与机器人差异带来的挑战。传统的基于优化的方法耗时且严重依赖于良好的初始化，而最近使用前馈神经网络的研究对未见运动的泛化能力差。此外，它们忽略了人类骨骼和机器人结构中的拓扑信息。在本文中，我们提出了一种新的神经潜在优化方法（neural latent optimization approach ）来解决这些问题。潜在优化利用解码器在潜在空间和机器人运动空间之间建立映射。

2023-11-07 18:09:37 317

原创运动重定向：TeachNet

在本文中，我们提出了一种新的神经网络体系结构TeachNet，用于基于直观和无标记视觉的灵巧机器人手遥操作。机器人关节角度直接从人手的深度图像中生成，产生视觉上类似的端到端机器人手的姿势。TeachNet的特殊结构与一致性损失函数相结合，处理了人类和机器人手在外观和解剖结构上的差异。从已有的标记人手深度图像和模拟机械手深度图像数据集生成同步的人-机器人训练集。最终的训练集包括 Shadow C6机械手的400K 成对深度图像和关节角度。

2023-11-05 22:24:34 399

原创 2G-GCN：Multi-person HOI Recognition in Videos

视频中的人-物交互(HOI)识别对于分析人的活动具有重要意义。大多数现有的专注于视觉特征的工作通常在现实场景中受到遮挡的影响。当多个人和多个对象都参与到HOI中时，这个问题会变得更加复杂。考虑到人体姿态和物体位置等几何特征为理解HOI提供了有意义的信息，我们认为将视觉特征和几何特征在HOI识别中结合起来，并提出了一种新的基于两级几何特征的图卷积网络(Two-level2G-GCN几何级图（）对人与物体的几何特征之间的相互依存关系进行建模，而融合级图（

2023-11-02 22:25:29 268

原创 MotionBERT：人体运动表征

我们提出了一个统一的观点，通过从大规模和异构数据资源中学习人类运动表示来解决各种以人为中心的视频任务。具体来说，我们提出了一个预训练阶段，其中训练运动编码器以从嘈杂的部分2D观测中恢复潜在的3D运动。通过这种方式获得的运动表示包含了关于人体运动的几何、运动学和物理知识，可以很容易地转移到多个下游任务。我们使用双流时空变换(Dual-stream Spatio-temporal Transformer，DSTformer)神经网络实现运动编码器。

2023-08-15 18:26:29 826

原创 Skeleton-Aware Networks for Deep Motion Retargeting

我们引入了一种新的深度学习框架，用于数据驱动的骨架之间的运动重定向，这些骨架可能具有不同的结构，但对应于同态图（homeomorphic graphs）。重要的是，我们的方法学习了如何重新定位，而不需要在训练集中的运动之间进行任何明确的配对。我们利用这样一个事实，即不同的同态骨架（homeomorphic skeletons）可以通过一系列边缘合并操作简化为一个共同的原始骨架（primal skeleton），我们将其称为骨架池化（skeletal pooling）。因此，我们的。

2023-08-13 22:55:16 501

原创 siMLPe：Human Motion Prediction

本文解决了人体运动预测的问题，包括从历史上观察到的序列预测未来的身体姿势。然而，最先进的方法提供了良好的结果，它们依赖于任意复杂性的深度学习架构，例如RNN，Transformers或GCN，通常需要多个训练阶段和超过200万个参数。在本文中，我们表明，结合一系列标准实践，如应用离散余弦变换(DCT)，预测关节的残余位移和优化速度作为辅助损失，基于多层感知器(mlp)的轻量级网络只有14万个参数可以超越最先进的性能。对Human3.6MAMASS和3DPW数据集进行了验证，显示了我们的方法（

2023-08-10 17:07:10 583

原创 L2CS-Net: 3D gaze estimation

人类的注视（gaze）是在人机交互和虚拟现实等各种应用中使用的关键线索。近年来，卷积神经网络(CNN)方法在预测凝视方向方面取得了显著进展。然而，由于眼睛外观的独特性、光照条件、头部姿势和凝视方向的多样性，在野外估计凝视仍然是一个具有挑战性的问题。在本文中，我们提出了一个鲁棒的基于 CNN 的模型来预测无约束设置下的凝视。我们提出对每个凝视角度分别进行回归，以提高每角度的预测精度，从而提高整体凝视性能。此外，我们使用两个相同的损失，每个角度一个，以改善网络的学习和提高其泛化。

2023-08-07 22:05:56 2090

原创 HPRNet: Whole-Body 2D 姿态估计

在本文中，我们提出了一种新的自下而上的单阶段全身姿态估计方法，我们称之为“层次点回归（hierarchical point regression）”，简称HPRNet。在标准身体姿势估计中，估计人体上约17个主要关节的位置。不同的是，在全身姿势估计中，也会估计细粒度关键点的位置(面部68个，每只手21个，每只脚3个)，这就产生了一个需要解决的尺度方差问题。为了处理不同身体部位之间的尺度差异，我们。

2023-08-07 15:51:42 635

原创 PoseFormer：基于视频的2D-to-3D单人姿态估计

Transformer架构已经成为自然语言处理中的首选模型，现在正被引入到计算机视觉任务中，例如图像分类、对象检测和语义分割。然而，在人体姿态估计领域，卷积架构仍然占主导地位。在这项工作中，我们呈现PoseFormer一种纯粹基于Transformer的方法，用于视频中的3D人体姿势估计，不涉及卷积架构。受视觉Transformer最新发展的启发，我们设计了一个时空Transformer结构，以全面建模每帧内的人体关节关系以及帧间的时间相关性，然后输出中心帧的精确三维人体姿态。

2023-08-06 17:08:12 2515

原创 Attention Is All You Need

主要的序列转导模型是基于复杂的循环或卷积神经网络（RNN和CNN），包括一个编码器和一个解码器。表现最好的模型还通过注意力机制连接编码器和解码器。我们提出了一个新的简单的网络架构，，完全基于注意力机制，完全摒弃递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更具并行性，并且需要更少的训练时间。我们的模型在WMT 2014 English-to-German 翻译任务上实现了28.4 BLEU，比现有的最佳结果(包括集合)提高了2个BLEU以上。

2023-08-02 17:40:03 376

原创 Robotic Telekinesis

论文建立了一个系统，使任何人都能控制机器人的手和手臂，只需用自己的手示范动作。机器人通过一个单一的RGB摄像头观察人类操作员，并实时模仿他们的动作。人的手和机器人的手在形状、大小和关节结构上都不同，从一个未校准的相机进行这种转换是一个高度缺乏约束的问题。此外，重新定位的轨迹必须有效地执行物理机器人上的任务，这就要求它们在时间上是平滑的，并且没有自我碰撞。我们的关键观点是，虽然收集成对的人机通信数据非常昂贵，但互联网上包含大量丰富多样的人手视频。

2023-07-12 10:55:06 535

原创 Drive&Act：用于自动驾驶汽车细粒度驾驶员行为识别的多模态数据集

本文引入了一种新的特定领域的Drive&Act基准，用于对驾驶员行为进行细粒度分类。数据集包含了12个小时，超过960万帧的人在手动驾驶和自动驾驶期间从事分心活动。从六个视图中捕获颜色红外深度和3D身体姿势信息，并使用分层注释方案密集标记视频，从而得到83个类别。数据集面临的主要挑战是:(1)识别车辆舱内的细粒度行为;(2)多模态活动识别，关注多种数据流;(3)cross-view识别基准，其中模型处理来自不熟悉领域的数据，因为传感器的类型和座舱中的位置可能会在车辆之间发生变化。

2023-05-20 17:45:39 3114 2

原创人体部位检测：BodyHands

人体部位检测：BodyHands

2022-10-31 17:37:49 1486

原创人体部位检测：DID-Net

人体部位检测：DID-Net

2022-10-29 16:03:55 2088

原创人体部位检测：Hier R-CNN

人体部位检测：Hier R-CNN

2022-10-26 15:07:55 1114

原创基于骨骼的动作识别：PoseConv3D

基于骨骼的动作识别：PoseConv3D

2022-10-21 21:10:58 11692 3

原创基于Skeleton的手势识别：SAM-SLR-v2

基于Skeleton的手势识别：SAM-SLR-v2

2022-10-20 17:08:04 2715 1

原创基于Skeleton的手势识别：SAM-SLR

基于Skeleton的手势识别：SAM-SLR

2022-10-19 17:35:32 3266 2

原创如何将visio画出的图片保存成清晰的jpg/png图片

如何将visio画出的图片保存成清晰的jpg/png图片

2022-09-12 15:42:33 46716 3

原创如何将png/jpg等图片格式转化成eps格式

将png格式图片转化成eps格式

2022-09-12 14:43:34 2163 1

原创 MMDetection（四）：在自己的数据集上训练模型

MMDetection（四）：在自己的数据集上训练模型

2022-08-24 17:14:30 2763 2

原创 Labelme标注的json数据转化为coco格式的数据

Labelme标注的json数据转化为coco格式的数据

2022-08-24 11:31:26 4365 11

原创 MMDetection（三）：公开数据集上测试和训练模型

MMDetection（三）：公开数据集上测试和训练模型

2022-08-23 15:54:14 2043

原创 MMDetection（二）：目标检测的示例运行

MMDetection（二）：目标检测的示例运行

2022-08-22 14:35:11 969 2

原创 Ubuntu切换不同版本的cuda

Ubuntu切换不同版本的cuda

2022-08-21 20:12:06 2843

原创 MMDetection（一）：安装

mmdetection安装

2022-08-21 18:09:22 719

原创综述：基于骨骼（skeleton）的动作识别方法

Deep learning‐based action recognition with 3D skeleton: Asurvey1. 简介1.1 3D Skeleton‐based Action Recognition1. 简介1.1 3D Skeleton‐based Action Recognition用途：基于骨骼的人体动作识别是计算机视觉领域的一个热门研究课题，已广泛应用于视频理解、视频监控、人机交互、机器人视觉、自动驾驶、虚拟现实等领域。获取方式：近年来，随着三维骨骼数据采集的快速发展，

2022-05-24 17:43:35 4574 1

原创 3D hand pose：JGR-P2O

"JGR-P2O: Joint Graph Reasoning based Pixel-to-Offset Prediction Network for 3D Hand Pose Estimation from a Single Depth Image"论文解析摘要1. 简介2. Related work2.1 基于回归的方法（Regression-based Methods）2.2 基于检测的方法（Detection-based Methods）2.3 分层和结构化方法（Hierarchical and

2022-04-27 16:20:02 673

原创基于CNN的动态手势识别：Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks

Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks论文解读1. 概述2. 简介3. 方法3.1 构架（1）检测器（2）分类器（3）后处理（4）一次性激活（Single-time Activation）论文链接：https://arxiv.org/abs/1901.10323论文代码（PyTorch版本）：https://github.com/ahmetgunduz/Real-ti

2022-03-23 11:02:35 12440 5

Anaconda3-5.2.0-Linux-x86_64.sh

空空如也