自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5848)
  • 资源 (35)
  • 收藏
  • 关注

转载 从DH参数到实时控制:我是如何从0到1手搓出一套六轴机械臂的?

南方科技大学本硕博,具备多年机械臂系统实物开发经验,从事机械臂相关创业多年,擅长机械臂建模与参数辨识、逆运动学与动力学算法设计、传统机械臂控制、以及机械臂实物平台的结构设计与软硬件集成。从零开始,系统构建机械臂的全流程认知,通过理论与实践相结合的方式,让学员不仅掌握机械臂的核心原理,更能亲手搭建并控制属于自己的机械臂系统,实现从理论到实践的跨越。课程以「边讲边做」讲解机械臂核心知识,将复杂的运动学与控制理论拆解为可实践的代码模块,以可运行实战支撑每个概念,助力学员从零构建可控机械臂系统。

2025-09-09 07:05:25 15

转载 66万奖金!具身智能大赛!机器人原料识别和积木拼装!无锡这一波赢麻了~

具身智能在感知识别、移动导航、精准操作、智能决策、人机交互、自主学习等方面的技术能力;2025无锡国际人工智能创新应用大赛于8月25日正式开赛,大赛面向全球开放算法赛道和具身智能创新应用赛道双赛道,召唤广大算法开发者、创新团队、科研院所和企业共同参与这场具身AI大赛,实现人工智能技术创新与应用。具身智能创新应用赛道面向具身智能创新应用企业、具身生态链企业、智能终端企业、具备创新思维的创业团队、科研院所团队和个人,基于具身智能进行创新和应用开发,提出并实现具有创新性和实用价值的解决方案。

2025-09-09 07:05:25 14

转载 ICCV 2025 Highlight | Stable-Sim2Real: 利用扩散模型模拟真实捕获的三维数据

实验表明,使用该方法生成的三维模拟数据训练模型,能显著提升在真实世界下三维视觉任务的性能。首先,本工作提供了三维数据仿真的直观效果对比,其中Stable-Sim2Real更贴近真实世界扫描的三维数据,并且在out-of-domain (e.g. ShapeNet, ABO, 3D-Future)的合成数据上也展现出了极佳的泛化性(图6,7)。此外,针对于下游应用,本工作提出了一套针对三维数据仿真的综合基准测试方案:若使用生成的仿真数据训练模型后能在真实世界中的性能得到提升,则验证了仿真方法的有效性。

2025-09-09 07:05:25 23

转载 EMNLP 2025 | AgentThink:小模型大超GPT4o! 首个融合推理与工具调用的自动驾驶 VLM 框架

此外,在探索和使用VLM的过程中,我们发现VLM模型存在严重的幻觉问题 (即模型给出的答案格式是对的,但答案内容都是错的)。其中,第一阶段分为两个部分,第一个部分是考验VLM的工具名称索引能力,输入是给定当前问题和视觉信息,询问模型需要调用什么样的工具,输出是期望VLM能给出给定格式的工具名称调用结果;第二个部分是考验VLM调用工具结果后,使用工具信息的上下文解决提出的问题得到答案的能力,输入是给定当前问题和视觉信息,给定工具调用结果的上下文信息,输出是该问题对应的完整推理过程和结果。

2025-09-08 07:02:48 22

转载 酷睿程南理工发表DBStereo|49ms超越IGEV,颠覆双目立体匹配新范式

本文中,我们提出了一个基于纯2D卷积的,部署友好的4D代价聚合网络DBStereo,其性能和耗时超越了所有现有的实时双目立体匹配方法,甚至超越了性能卓越的迭代范式方法IGEV-Stereo并且减少了86%的推理速度。我们的研究深入分析了传统聚合范式方法的局限性,打破了使用3D卷积来处理4D代价体的固有思路。我们的DBStereo及其变体在实时性,准确性超越了所有现有的实时立体匹配方法,以及性能优越的迭代范式方法RAFT-Stereo和IGEV-Stereo,且降低了96%和86%的耗时。

2025-09-08 07:02:48 7

转载 TPAMI 2025开源| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!

这项由华中科技大学团队提出的全新参数高效微调(PEFT)方法,创新性地将视角落在了“谱域(Spectral Domain)”,仅用0.67%的可训练参数,就在ScanObjectNN数据集上,将分类精度首次突破99%,达到了惊人的99.48%,建立了全新的SOTA,几乎宣告了该数据集的性能饱和。然而,在点云领域,传统的完全微调(Full Fine-tuning)策略需要更新模型的所有参数,这不仅消耗海量的GPU显存和存储资源,也让模型的快速部署和迭代变得异常困难。图5:t-SNE特征可视化。

2025-09-07 00:01:45 99

转载 从零开始学习机械臂实物开发核心流程,包括DH参数标定、电机控制、轨迹追踪等!

南方科技大学本硕博,具备多年机械臂系统实物开发经验,从事机械臂相关创业多年,擅长机械臂建模与参数辨识、逆运动学与动力学算法设计、传统机械臂控制、以及机械臂实物平台的结构设计与软硬件集成。从零开始,系统构建机械臂的全流程认知,通过理论与实践相结合的方式,让学员不仅掌握机械臂的核心原理,更能亲手搭建并控制属于自己的机械臂系统,实现从理论到实践的跨越。课程以「边讲边做」讲解机械臂核心知识,将复杂的运动学与控制理论拆解为可实践的代码模块,以可运行实战支撑每个概念,助力学员从零构建可控机械臂系统。

2025-09-06 00:02:29 71

转载 国际3D视觉大会:揭秘下一代高精度、实时化与智能感知新范式!

未来,该技术将加速向智能化、集成化、实时化、高性能及多场景应用方向演进,为工业数字化、消费电子智能化提供更高效、精准的感知支撑。在此背景下,中国光学工程学会联合上海交通大学、上海大学等优势单位,拟于2025年9月19-21日在苏州举办“第三届国际3D视觉感知与应用大会”。学会秉承“创新、协同、求真、务实”的精神,将通过学术交流、成果展示、成果转化等多种形式,搭建一个产学研大平台,推动光学工程的技术创新、注重光学科技的成果转化、面向应用促进光学前沿的工程化。普通代表(非中国光学工程学会会员):3607元。

2025-09-05 07:02:44 94

转载 先临三维2026届校园招聘正式启动!涵盖三维重建、标定算法、C++、图形学等

销售管培生(齿科数字化方向)、涉外法务管培生、市场营销管培生、海外营销管培生、销售管培生(工业3D扫描方向)、财务管培生、供应链管培生、人力资源管培生。不管你是敲代码的 “算法达人”、画图纸的 “设计能手”,还是擅长沟通的 “统筹高手”,我们都为你准备了适配的赛道,让你的专业能力 “有用武之地”。海外销售工程师(齿科、计量方向)、海外技术支持工程师、技术支持工程师(计量、检测方向)、应用工程师(齿科数字化方向)网格数据处理算法工程师、三维重建算法工程师、AI图形算法工程师、几何算法工程师、标定算法工程师。

2025-09-05 07:02:44 63

转载 无需训练!上交开源FastVGGT:让VGGT加速4倍!让三维重建精度更高!

我们设计了一种独特的标记分区策略,专门针对三维架构和工作,有效地消除了冗余计算,同时保持VGGT强大的重建能力。值得注意的是,在1000张输入图像的情况下, FastVGGT 比VGGT实现了4倍的速度提升,同时在长序列场景中减少了错误积累。最后,受ToMeSD启发,我们在后续各帧中实施基于区域的随机采样,确保源令牌和目标令牌的空间平衡选择,防止合并过程中局部区域关键信息的丢失。3)通过大量实验证明,我们的方法在保持重构质量的同时,显著加速了VGGT在大规模输入下的处理速度,并缓解了误差累积。

2025-09-04 07:05:52 69

转载 无需训练!厦大&上交开源FastVGGT:让VGGT加速4倍!让三维重建精度更高!

我们设计了一种独特的标记分区策略,专门针对三维架构和工作,有效地消除了冗余计算,同时保持VGGT强大的重建能力。值得注意的是,在1000张输入图像的情况下, FastVGGT 比VGGT实现了4倍的速度提升,同时在长序列场景中减少了错误积累。最后,受ToMeSD启发,我们在后续各帧中实施基于区域的随机采样,确保源令牌和目标令牌的空间平衡选择,防止合并过程中局部区域关键信息的丢失。3)通过大量实验证明,我们的方法在保持重构质量的同时,显著加速了VGGT在大规模输入下的处理速度,并缓解了误差累积。

2025-09-04 07:05:52 26

转载 CCV‘25开源 | GLEAM破解主动探索建图的泛化难题!

香港中文大学 MMLab-上海人工智能实验室具身智能中心联培博士生,研究方向是三维计算机视觉和具身智能,导师为薛天帆教授。:3D视觉工坊很荣幸邀请到了香港中文大学MMLab-上海人工智能实验室具身智能中心联培博士生。3D视觉工坊很荣幸邀请到了香港中文大学MMLab-上海人工智能实验室具身智能中心联培博士生。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,欢迎文末联系我们。香港中文大学 MMLab-上海人工智能实验室具身智能中心联培博士生。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,

2025-09-04 07:05:52 17

转载 感知、规划、预测大一统!RoboTron-Nav实现具身导航成功率81%,创历史新高!

与自动驾驶不同,语言引导的视觉导航要求智能体根据自然语言指令在未见过的视觉环境中自主探索以定位目标对象,这带来了独特的挑战,包括在不熟悉的视觉环境中有效感知周围场景、规划实现目标的策略以及预测合适的导航动作。为了解决当前导航模型缺乏深度思考和任务规划的问题,论文开发了一种新方法,通过扩展导航数据集来包含EQA对,从而明确建模导航中的决策过程。:RoboTron-Nav在CHORES-S基准测试的ObjectNav任务上实现了81.1%的成功率,创下新的最高水平,比之前的方法绝对提升了9%。

2025-09-03 07:03:13 56

转载 0.3秒极快推理!精度暴虐SAM30!OpenM3D打造开放词汇3D检测新SOTA!

开放词汇(OV)3D目标检测是一个新兴领域,但与基于3D点云的方法相比,通过基于图像的方法对其进行的探索仍然有限。在训练时,文章提出一种使用图嵌入技术的3D伪框生成方法,将2D片段组合成连贯的3D结构,该方法生成的伪框在精度和召回率上超过了其他方法。在推理时,OpenM3D仅需要多视图图像,在ScanNet200和ARKitScenes数据集上,它的性能优于强大的两阶段方法以及使用OV - 3DET和SAM3D伪框训练的模型,同时在准确性和速度上也优于基于多视图深度估计的基线方法。

2025-09-02 07:02:04 58

转载 手搓六轴机械臂:从DH参数到路径规划的实践笔记

南方科技大学本硕博,具备多年机械臂系统实物开发经验,从事机械臂相关创业多年,擅长机械臂建模与参数辨识、逆运动学与动力学算法设计、传统机械臂控制、以及机械臂实物平台的结构设计与软硬件集成。从零开始,系统构建机械臂的全流程认知,通过理论与实践相结合的方式,让学员不仅掌握机械臂的核心原理,更能亲手搭建并控制属于自己的机械臂系统,实现从理论到实践的跨越。课程以「边讲边做」讲解机械臂核心知识,将复杂的运动学与控制理论拆解为可实践的代码模块,以可运行实战支撑每个概念,助力学员从零构建可控机械臂系统。

2025-09-02 07:02:04 35

转载 NeurIPS近3万投稿爆仓,强拒400篇论文!

有眼尖的网友发现,在官方发布的「审稿人指南」中,开头写的还是「人类撰写」(human-written)和「AI生成」(AI-generated );AI顶会真的爆仓了!有人建议,干脆把NeurIPS拆成不同的方向办,如今搞ML、自然语言处理、计算机视觉等,几乎机器学习领域所有的人,都挤到一个顶会,也太过离谱。回看这一年已落幕的AI顶会,让人不禁感慨,如此巨量的投稿,却成为了一场「噩梦」。甚至,有的顶会,比如ICCV 2025强制「投稿作者」担任「审稿人」,若是在截止日期前没有完成,自己的论文也会被拒收。

2025-09-02 07:02:04 46

转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)

与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。

2025-09-01 07:04:01 86

转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)

与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。

2025-09-01 07:04:01 55

转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)

与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。

2025-09-01 07:04:01 32

转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)

与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。

2025-09-01 07:04:01 17

转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)

与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。

2025-09-01 07:04:01 23

转载 上交最新 | Interleave-VLA:首个支持交错图文指令的VLA框架

上海交通大学本科生,与严骏驰教授、丁明宇教授、杨学教授和贾萧松教授合作展开研究。研究方向为具身智能与自动驾驶的感知决策,聚焦于 VLM/VLA 的多模态学习。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,欢迎文末联系我们。上交最新 | Interleave-VLA:首个支持交错图文指令的VLA框架。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,:3D视觉工坊很荣幸邀请到了上海交通大学。3D视觉工坊很荣幸邀请到了上海交通大学。点击下方按钮预约直播。3D视觉工坊哔哩哔哩。

2025-08-29 07:03:42 44

转载 仅限女生!已经7年!一个专注3D视觉、三维重建、具身智能、无人机的圈子!

细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。本课程主要包含两部分,分别是相机标定和3D视觉,相机标定包含单目、双目和鱼眼相机标定;星球内已沉淀近超过100场3D视觉顶会论文直播回放,内容覆盖具身智能、自动驾驶、三维重建、数字人、扩散模型、3D生成等前沿领域。目前已有6400+活跃成员,主要涉及方向:工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、大模型等科技前沿方向。

2025-08-29 07:03:42 70

转载 ICLR‘25 Oral | 在线实时分割任意3D物体

同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。

2025-08-29 07:03:42 34

转载 ICLR‘25 Oral | 在线实时分割任意3D物体

同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。

2025-08-29 07:03:42 24

转载 ICLR‘25 Oral | 在线实时分割任意3D物体

同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。

2025-08-29 07:03:42 17

转载 ICLR‘25 Oral | 在线实时分割任意3D物体

同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。

2025-08-29 07:03:42 21

转载 ICLR‘25 Oral | 在线实时分割任意3D物体

同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。

2025-08-29 07:03:42 13

转载 结构增强+外观嵌入:SEGS-SLAM如何让3D高斯建图实现前所未有的照片级真实感?

这是因为传统的初始化方式(如直接使用COLMAP或ORB-SLAM的点云)虽然提供了初始位置,但这些高斯点在后续优化中是自由浮动的,它们的“结构”约束很弱,很容易为了拟合像素颜色而牺牲几何的准确性。的全新框架,通过两大核心创新——“结构增强光影映射(SEPM)”和“运动中外观嵌入(AfME)”,从根本上解决了上述两大难题,在多个公开数据集上将渲染质量提升到了一个新高度,例如在TUM数据集的单目任务上,PSNR指标相较于之前的SOTA方法MonoGS提升了惊人的。这些高斯的位置是相对于其所属锚点的一个。

2025-08-28 07:02:17 72

转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D

具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。

2025-08-27 07:03:58 67

转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D

具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。

2025-08-27 07:03:58 50

转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D

具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。

2025-08-27 07:03:58 26

转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D

具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。

2025-08-27 07:03:58 28

转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D

具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。

2025-08-27 07:03:58 21

转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D

具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。

2025-08-27 07:03:58 20

转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D

具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。

2025-08-27 07:03:58 14

转载 ICCV25满分论文| MTU3D统一空间理解与主动探索的具身导航

清华大学计算机系博四在读,师从邓志东教授。研究方向为3D空间理解,视觉语言学习,具身智能,空间导航。代表工作为3D-VisTA, PQ3D, MTU3D系列。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,3D视觉工坊很荣幸邀请到了清华大学计算机系博四在读。扫码观看直播,或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享,欢迎文末联系我们。:3D视觉工坊很荣幸邀请到了清华大学博士生。具身智能背景介绍,和3D空间理解的关系。3D空间理解的相关工作和难点分析。3D视觉工坊哔哩哔哩。

2025-08-26 07:02:44 63

转载 探索具身智能,贝叶斯推理或成“开放世界”的关键钥匙?

当前具身智能主流方法基于数据驱动学习,如Foundation Model - powered Systems(FMS)和End - to - End modeling(E2E),其核心是从数据中学习,涉及搜索和学习操作,但与贝叶斯方法在学习和搜索视角上存在显著差异,贝叶斯学习依赖结构化先验或明确模型假设,不利于可扩展性。从学习和搜索的角度来看,贝叶斯学习范式更接近人类学习,但当代具身智能系统主要基于批量模式学习,因为贝叶斯学习方法常依赖结构化先验或明确的模型假设,不利于可扩展性。

2025-08-26 07:02:44 39

转载 ICCV‘25开源 | 无需任何标注!NVIDIA新作LongSplat:从任意拍摄的长视频重建3D高斯!

LongSplat解决了从随意捕获的长视频中合成新颖视图(NVS)的关键挑战,这些视频的特点是不规则的相机运动、未知的相机姿态和广阔的场景。在具有挑战性的基准测试上的广泛实验表明,LongSplat取得了最先进的成果,与先前的方法相比,显著提高了渲染质量、姿态精度和计算效率。随着智能手机和运动相机的普及,随意拍摄的视频已成为重要的三维内容来源。与专业采集的数据集不同,这类随意拍摄的视频具有挑战性特征:不规则的相机轨迹、长达数百甚至数千帧的长序列,以及缺乏可靠的相机位姿或精确的几何先验信息。

2025-08-25 07:03:53 66

转载 ICCV‘25开源 | 无需任何标注!NVIDIA新作LongSplat:从任意拍摄的长视频重建3D高斯!

LongSplat解决了从随意捕获的长视频中合成新颖视图(NVS)的关键挑战,这些视频的特点是不规则的相机运动、未知的相机姿态和广阔的场景。在具有挑战性的基准测试上的广泛实验表明,LongSplat取得了最先进的成果,与先前的方法相比,显著提高了渲染质量、姿态精度和计算效率。随着智能手机和运动相机的普及,随意拍摄的视频已成为重要的三维内容来源。与专业采集的数据集不同,这类随意拍摄的视频具有挑战性特征:不规则的相机轨迹、长达数百甚至数千帧的长序列,以及缺乏可靠的相机位姿或精确的几何先验信息。

2025-08-25 07:03:53 33

卡尔曼滤波示例程序

这是我在研究卡尔曼滤波以及粒子滤波时,封装好的卡尔曼滤波跟踪二维点的程序。程序中已经有测试好的点击,配置好opencv属性表,便可以直接运行。

2018-04-25

相机最佳曝光时间的确定

由于每次使用相机时,需要调试相机的曝光时间,比较耽误时间,因而封装了一个函数,可以用来确定相机最佳的曝光时间。

2017-12-21

Particle滤波 粒子滤波跟踪算法

粒子滤波跟踪算法,我已成功运用于光笔的动态跟踪,现上传,希望可以帮助到大家。

2017-08-22

利用PointGrey相机连续拍照

此程序可以用来给PointGrey通过程序拍照,并且拍完的照片可以连续保存到指定的文件夹下。

2017-05-13

socket通信技术

1、 程序:socket_Send为发送端; 程序:socket_Receive为接收端; 2、 此程序可以用来接收和发送txt,jpg.avi等各种文件和char类型的数据; 如果对于结构体,可以先将其转化成char,再发送,接收之后,再转化成结构体。 可以参考我知乎提供的方法。

2018-01-23

GBK.h QT中显示中文

只要包含该头文件在QT工程中, QString imgPath = QFileDialog::getExistingDirectory(this, GBK::ToUnicode("设置图像 打开路径"), "D:/ImgFiles/", QFileDialog::Option::ShowDirsOnly); 如这条语句中用法,便可显示中文。

2018-01-18

XML头文件与cpp函数

此为XML文件读写的函数头文件与cpp文件,在项目中添加进来即可。

2018-01-26

qt data visualization 5.7.1 源码

这是我在QT官网上下载的qt data viualization的源码,可以使用Cmake成功编译。

2017-12-19

XML文件读写程序C++

XML文件读写封装好的程序,可以加入到工程中直接使用。

2017-12-21

串口程序 可以自动识别串口号

可以用来自动识别串口号,方便快捷,成功应用于ZigBee板子中。

2017-05-13

配置VS2013+Qt5开发环境续:安装和设置以及QT工程创建

该资源为VS2013+QT5开发环境的安装配置以及Qt的工程创建。

2018-01-08

串口自动识别

Com端自动识别函数的封装,经过测试,亲测有效,可以自动识别串口号。

2017-12-21

相机拍照程序(PointGrey相机)

资源中是我经常使用的PointGrey相机的拍照程序,实现了可以使用软触发和硬触发拍照。

2017-12-21

QGraphicsView类的简单用法

QT 控件QGraphicsView的简单用法,包含头文件和cpp,函数调用参考README.txt

2018-01-18

socket通信界面程序

1、发送端为利用PointGrey相机追踪编码点并将其坐标值传输给接收端; 2、接收端为使用Qt Data Visualizaiton库编写的三维点显示界面。

2018-01-24

xml读写项目总结

里面包括:1、封装好的XML文件的读和写工程;2、tinyxml库;3、xmlPPT讲解。

2018-01-26

粒子滤波在图像领域的跟踪

粒子滤波在非高斯、非线性状况下,运动情况由于卡尔曼滤波。这是我在研究粒子滤波时,封装好的测试程序。下载之后,只需要将opencv属性表添加进来,便可以观看到运行效果图。

2018-04-25

socket通信

socket通信实现代码,已经成功测试。可以运用于QT以及MFC。

2018-01-08

QT在VS2013中的配置

该文档为QT5.7.1在VS2013中详细的配置教程,文章中对于配置过程中必要的软件安装包下载链接皆已提供。

2018-05-08

VS2013+OpenCV3.1.0配置教程

该文档为OpenCV3.1.0在VS2013中详细的配置教程,包括相关安装包的下载链接。

2018-05-08

PCL1.8.0+VS2013+Win10 x64的配置教程

本篇文章主要介绍一下PCL库的配置过程,适合PCL入门。 一配置环境 1.win10 X64 2.Visual Studio 2013

2018-05-08

支持linux下像素级查看图片

支持linux下像素级查看图片

2023-01-29

Ymodem串口升级界面及源码(linux下也可使用)

Ymodem串口升级界面及源码(QT)

2022-07-20

如何在Linux下使用“linuxdeployqt”源码打包发布Qt程序

使用教程请参考博客:https://yongqi.blog.csdn.net/article/details/125841736

2022-07-18

ubuntu下基于Clion+QT编写的界面demo,适合入门

ubuntu下基于Clion+QT编写的界面demo,适合入门, 博客请参考:https://yongqi.blog.csdn.net/article/details/125698957

2022-07-11

针孔、鱼眼相机标定,包括单目和双目标定demo

针孔、鱼眼相机标定,包括单目和双目标定demo, 基于OpenCV和C++。

2022-07-01

OpenCV3.3.1安装包

用法请参考:https://mp.csdn.net/mp_blog/creation/success/125555489

2022-07-01

linux下TCP通讯助手

里面为deb文件,直接双击即可安装。或者通过指令: sudo dpkg -i **.deb 如果安装后点击软件无反应,则需要在终端执行: sudo apt-get install libqtgui4:amd64

2022-06-30

本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。

本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。

2022-06-22

Windows下TCP通讯实战demo及TCP助手

内容概要: Windows下TCP通讯实战demo,可以直接适用于与EPSON或者三菱等机械臂通讯,包括发送与接收字符串,位姿坐标等,以及两个好用的TCP助手。 适用人群:需要进行网络通讯的场景。

2022-06-03

Linux下的TCP通讯实战demo以及通讯助手下载

内容概要: Linux下的TCP通讯实战demo,以及通讯助手小工具 适用人群: 需要进行TCP网络通讯的问题。 主要适用场景。 通过网线或者wifi进行数据通讯的场景 //注意:在使用tcp/ip通讯时,请将服务器与客户端的ip设为同一个网段。 //本次演示的demo中, //服务器的ip为:192.168.3.8 端口号为8080 //客户端的ip为:192.168.3.48 端口号为36214(可以通过串口助手查看端口号) //以上同一个网段,如何判断两个ip地址是否为同一个网段,可以参考博客:https://baijiahao.baidu.com/s?id=1687382131051003813&wfr=spider&for=pc

2022-06-03

UKF(无迹卡尔曼滤波)

主要封装了UKF(无迹卡尔曼滤波)的跟踪demo,并配有直观的图形展示,简单易用。 UKF,是KF、EKF的变种与扩展,对于非线性跟踪效果要明显好于KF。

2020-12-03

Visual Assistant 2015破解版安装包

详细的安装教程请参见:https://mp.weixin.qq.com/s/_JvR9pWiIvDI7uOQvr1IGA

2018-09-12

Github安装包

Github安装包。点击下载,解压即可轻松安装。便于项目工程管理。

2018-05-12

particle_filter_demo.zip

主要封装了粒子滤波(Particle Filter)对于非线性系统、非高斯噪声系统的跟踪效果,附有数据与图形展示过程,直观易懂。

2020-12-03

精确绘制椭圆

该文件封装好的函数为:1、利用OpenCV函数绘制椭圆;2、利用面积法精确绘制椭圆。替换掉OpenCV属性表,即可成功运行。

2018-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除