自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation

 本文整个架构的设计目的是将2D关节位置信息通过图结构化的MLP层提升到3D空间,从而实现3D人体姿态估计。通过结合空间和通道图MLP,GraphMLP能够有效地捕捉关节之间的局部和全局空间交互,提高姿态估计的准确性。此外,该架构还支持从单帧图像扩展到视频序列的处理,通过简单高效的方式捕捉复杂的时空动态。

2025-03-23 11:05:44 1367

原创 Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

本文介绍了 OVM3D-Det,这是首个针对基于图像的3D开放词汇检测框架。

2025-03-14 19:14:41 1414

原创 Grounding DINO

这篇论文介绍了Grounding DINO,这是一个开放集目标检测器,它把基于Transformer的检测器DINO和grounded预训练结合在一起。它可以根据人类的输入(比如类别名称或指代表达)来检测任意目标。关键的创新点是将语言引入到封闭集检测器中,以实现开放集概念的泛化。作者提出了一个紧密的融合解决方案,包括特征增强器、语言引导的查询选择和跨模态解码器。Grounding DINO在大规模数据集上进行预训练,并在开放集目标检测和指称目标检测基准上进行评估。

2025-02-16 10:32:46 1857

原创 Depth Anything

单目深度估计(MDE)依赖有限且昂贵的深度标注数据,导致模型泛化能力不足,难以处理多样场景。作者提出了Depth Anything,通过大规模无标签图像扩展数据覆盖,利用教师-学生框架生成伪标签,并通过强扰动和语义特征对齐(DINOv2)增强模型的学习能力,最终构建了一个通用的MDE基础模型,显著提升了零样本和度量深度估计的性能。

2025-02-09 11:51:55 1087

原创 Open-World Panoptic Segmentation

Abstract

2025-01-03 21:39:27 728

原创 DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment

Self-supervised visual foundation models(自监督视觉基础模型)问题:视觉特征跟语言模型没有很好的融合在一起,所以开放世界难以使用。解决:发明了dino.txt,训练一个text encoder和冻结的视觉模型相融合但是效果在密集任务上并不好。采用了另一种方法拼接[CLS] token与不定平均值联合起来融合文本和图像特征。效果:训练了一个CLIP-like模型,训练计算成本相对CLIP较低,在zero-shot分类和开放词汇分割任务上达到sota。

2024-12-28 22:52:25 1130

原创 【书生】书生·浦语大模型开源开放体系

取自通识工具链了解。提供很长的一篇文章,有多少概率能定位到任何位置的任何信息。工具链。

2024-11-07 21:55:08 232

原创 【书生】Task1~4 入门(linux/python/git/huggingface)

前言:作业审判官可以直接点击目录查看作业更加方便哦~

2024-11-07 02:08:36 1965

原创 【机器学习】入门+回归

监督/无监督/强化 有无标签。

2024-11-03 19:03:02 495

原创 【数字图像处理】高动态范围图像重建与处理

上了数字图像处理的课,课上要求完成这个项目,现开放我的答案,望大家多多指正!

2024-10-30 18:05:44 1858

原创 Google打不开,但是外网正常访问?

近期遇到这个问题,检查了电脑的防火墙,internet选项,删除了cookies。最后发现删掉Google安装的乱七八糟的插件就好了,有点无语,记录一下。现在很多教程还在说老版本的google,感觉是该更新了。分享一下,成就感+1。

2024-10-26 22:57:01 1146

原创 Open-Vocabulary 2024-CVPR

CVPR:一共有36篇文章。将所有与Open-world部分整理成了这几个部分。整理好了第一部分。

2024-10-26 08:33:14 2602 2

计算机网络 第三章 数据链路层 思维导图

适合期末复习,对计算机网络进行感知。第三章数据链路层

2025-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除