- 博客(12)
- 收藏
- 关注
原创 GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation
本文整个架构的设计目的是将2D关节位置信息通过图结构化的MLP层提升到3D空间,从而实现3D人体姿态估计。通过结合空间和通道图MLP,GraphMLP能够有效地捕捉关节之间的局部和全局空间交互,提高姿态估计的准确性。此外,该架构还支持从单帧图像扩展到视频序列的处理,通过简单高效的方式捕捉复杂的时空动态。
2025-03-23 11:05:44
1367
原创 Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data
本文介绍了 OVM3D-Det,这是首个针对基于图像的3D开放词汇检测框架。
2025-03-14 19:14:41
1414
原创 Grounding DINO
这篇论文介绍了Grounding DINO,这是一个开放集目标检测器,它把基于Transformer的检测器DINO和grounded预训练结合在一起。它可以根据人类的输入(比如类别名称或指代表达)来检测任意目标。关键的创新点是将语言引入到封闭集检测器中,以实现开放集概念的泛化。作者提出了一个紧密的融合解决方案,包括特征增强器、语言引导的查询选择和跨模态解码器。Grounding DINO在大规模数据集上进行预训练,并在开放集目标检测和指称目标检测基准上进行评估。
2025-02-16 10:32:46
1857
原创 Depth Anything
单目深度估计(MDE)依赖有限且昂贵的深度标注数据,导致模型泛化能力不足,难以处理多样场景。作者提出了Depth Anything,通过大规模无标签图像扩展数据覆盖,利用教师-学生框架生成伪标签,并通过强扰动和语义特征对齐(DINOv2)增强模型的学习能力,最终构建了一个通用的MDE基础模型,显著提升了零样本和度量深度估计的性能。
2025-02-09 11:51:55
1087
原创 DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
Self-supervised visual foundation models(自监督视觉基础模型)问题:视觉特征跟语言模型没有很好的融合在一起,所以开放世界难以使用。解决:发明了dino.txt,训练一个text encoder和冻结的视觉模型相融合但是效果在密集任务上并不好。采用了另一种方法拼接[CLS] token与不定平均值联合起来融合文本和图像特征。效果:训练了一个CLIP-like模型,训练计算成本相对CLIP较低,在zero-shot分类和开放词汇分割任务上达到sota。
2024-12-28 22:52:25
1130
原创 Google打不开,但是外网正常访问?
近期遇到这个问题,检查了电脑的防火墙,internet选项,删除了cookies。最后发现删掉Google安装的乱七八糟的插件就好了,有点无语,记录一下。现在很多教程还在说老版本的google,感觉是该更新了。分享一下,成就感+1。
2024-10-26 22:57:01
1146
原创 Open-Vocabulary 2024-CVPR
CVPR:一共有36篇文章。将所有与Open-world部分整理成了这几个部分。整理好了第一部分。
2024-10-26 08:33:14
2602
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅