Hanqi.i-CSDN博客

原创 GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation

本文整个架构的设计目的是将2D关节位置信息通过图结构化的MLP层提升到3D空间，从而实现3D人体姿态估计。通过结合空间和通道图MLP，GraphMLP能够有效地捕捉关节之间的局部和全局空间交互，提高姿态估计的准确性。此外，该架构还支持从单帧图像扩展到视频序列的处理，通过简单高效的方式捕捉复杂的时空动态。

2025-03-23 11:05:44 1399

原创 Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

本文介绍了 OVM3D-Det，这是首个针对基于图像的3D开放词汇检测框架。

2025-03-14 19:14:41 1448

原创 Grounding DINO

这篇论文介绍了Grounding DINO，这是一个开放集目标检测器，它把基于Transformer的检测器DINO和grounded预训练结合在一起。它可以根据人类的输入（比如类别名称或指代表达）来检测任意目标。关键的创新点是将语言引入到封闭集检测器中，以实现开放集概念的泛化。作者提出了一个紧密的融合解决方案，包括特征增强器、语言引导的查询选择和跨模态解码器。Grounding DINO在大规模数据集上进行预训练，并在开放集目标检测和指称目标检测基准上进行评估。

2025-02-16 10:32:46 1959

原创 Depth Anything

单目深度估计（MDE）依赖有限且昂贵的深度标注数据，导致模型泛化能力不足，难以处理多样场景。作者提出了Depth Anything，通过大规模无标签图像扩展数据覆盖，利用教师-学生框架生成伪标签，并通过强扰动和语义特征对齐（DINOv2）增强模型的学习能力，最终构建了一个通用的MDE基础模型，显著提升了零样本和度量深度估计的性能。

2025-02-09 11:51:55 1114

原创 Open-World Panoptic Segmentation

Abstract

2025-01-03 21:39:27 739

原创 DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment

Self-supervised visual foundation models（自监督视觉基础模型）问题：视觉特征跟语言模型没有很好的融合在一起，所以开放世界难以使用。解决：发明了dino.txt，训练一个text encoder和冻结的视觉模型相融合但是效果在密集任务上并不好。采用了另一种方法拼接[CLS] token与不定平均值联合起来融合文本和图像特征。效果：训练了一个CLIP-like模型，训练计算成本相对CLIP较低，在zero-shot分类和开放词汇分割任务上达到sota。

2024-12-28 22:52:25 1160