- 博客(5848)
- 资源 (35)
- 收藏
- 关注
转载 从DH参数到实时控制:我是如何从0到1手搓出一套六轴机械臂的?
南方科技大学本硕博,具备多年机械臂系统实物开发经验,从事机械臂相关创业多年,擅长机械臂建模与参数辨识、逆运动学与动力学算法设计、传统机械臂控制、以及机械臂实物平台的结构设计与软硬件集成。从零开始,系统构建机械臂的全流程认知,通过理论与实践相结合的方式,让学员不仅掌握机械臂的核心原理,更能亲手搭建并控制属于自己的机械臂系统,实现从理论到实践的跨越。课程以「边讲边做」讲解机械臂核心知识,将复杂的运动学与控制理论拆解为可实践的代码模块,以可运行实战支撑每个概念,助力学员从零构建可控机械臂系统。
2025-09-09 07:05:25
15
转载 66万奖金!具身智能大赛!机器人原料识别和积木拼装!无锡这一波赢麻了~
具身智能在感知识别、移动导航、精准操作、智能决策、人机交互、自主学习等方面的技术能力;2025无锡国际人工智能创新应用大赛于8月25日正式开赛,大赛面向全球开放算法赛道和具身智能创新应用赛道双赛道,召唤广大算法开发者、创新团队、科研院所和企业共同参与这场具身AI大赛,实现人工智能技术创新与应用。具身智能创新应用赛道面向具身智能创新应用企业、具身生态链企业、智能终端企业、具备创新思维的创业团队、科研院所团队和个人,基于具身智能进行创新和应用开发,提出并实现具有创新性和实用价值的解决方案。
2025-09-09 07:05:25
14
转载 ICCV 2025 Highlight | Stable-Sim2Real: 利用扩散模型模拟真实捕获的三维数据
实验表明,使用该方法生成的三维模拟数据训练模型,能显著提升在真实世界下三维视觉任务的性能。首先,本工作提供了三维数据仿真的直观效果对比,其中Stable-Sim2Real更贴近真实世界扫描的三维数据,并且在out-of-domain (e.g. ShapeNet, ABO, 3D-Future)的合成数据上也展现出了极佳的泛化性(图6,7)。此外,针对于下游应用,本工作提出了一套针对三维数据仿真的综合基准测试方案:若使用生成的仿真数据训练模型后能在真实世界中的性能得到提升,则验证了仿真方法的有效性。
2025-09-09 07:05:25
23
转载 EMNLP 2025 | AgentThink:小模型大超GPT4o! 首个融合推理与工具调用的自动驾驶 VLM 框架
此外,在探索和使用VLM的过程中,我们发现VLM模型存在严重的幻觉问题 (即模型给出的答案格式是对的,但答案内容都是错的)。其中,第一阶段分为两个部分,第一个部分是考验VLM的工具名称索引能力,输入是给定当前问题和视觉信息,询问模型需要调用什么样的工具,输出是期望VLM能给出给定格式的工具名称调用结果;第二个部分是考验VLM调用工具结果后,使用工具信息的上下文解决提出的问题得到答案的能力,输入是给定当前问题和视觉信息,给定工具调用结果的上下文信息,输出是该问题对应的完整推理过程和结果。
2025-09-08 07:02:48
22
转载 酷睿程南理工发表DBStereo|49ms超越IGEV,颠覆双目立体匹配新范式
本文中,我们提出了一个基于纯2D卷积的,部署友好的4D代价聚合网络DBStereo,其性能和耗时超越了所有现有的实时双目立体匹配方法,甚至超越了性能卓越的迭代范式方法IGEV-Stereo并且减少了86%的推理速度。我们的研究深入分析了传统聚合范式方法的局限性,打破了使用3D卷积来处理4D代价体的固有思路。我们的DBStereo及其变体在实时性,准确性超越了所有现有的实时立体匹配方法,以及性能优越的迭代范式方法RAFT-Stereo和IGEV-Stereo,且降低了96%和86%的耗时。
2025-09-08 07:02:48
7
转载 TPAMI 2025开源| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
这项由华中科技大学团队提出的全新参数高效微调(PEFT)方法,创新性地将视角落在了“谱域(Spectral Domain)”,仅用0.67%的可训练参数,就在ScanObjectNN数据集上,将分类精度首次突破99%,达到了惊人的99.48%,建立了全新的SOTA,几乎宣告了该数据集的性能饱和。然而,在点云领域,传统的完全微调(Full Fine-tuning)策略需要更新模型的所有参数,这不仅消耗海量的GPU显存和存储资源,也让模型的快速部署和迭代变得异常困难。图5:t-SNE特征可视化。
2025-09-07 00:01:45
99
转载 从零开始学习机械臂实物开发核心流程,包括DH参数标定、电机控制、轨迹追踪等!
南方科技大学本硕博,具备多年机械臂系统实物开发经验,从事机械臂相关创业多年,擅长机械臂建模与参数辨识、逆运动学与动力学算法设计、传统机械臂控制、以及机械臂实物平台的结构设计与软硬件集成。从零开始,系统构建机械臂的全流程认知,通过理论与实践相结合的方式,让学员不仅掌握机械臂的核心原理,更能亲手搭建并控制属于自己的机械臂系统,实现从理论到实践的跨越。课程以「边讲边做」讲解机械臂核心知识,将复杂的运动学与控制理论拆解为可实践的代码模块,以可运行实战支撑每个概念,助力学员从零构建可控机械臂系统。
2025-09-06 00:02:29
71
转载 国际3D视觉大会:揭秘下一代高精度、实时化与智能感知新范式!
未来,该技术将加速向智能化、集成化、实时化、高性能及多场景应用方向演进,为工业数字化、消费电子智能化提供更高效、精准的感知支撑。在此背景下,中国光学工程学会联合上海交通大学、上海大学等优势单位,拟于2025年9月19-21日在苏州举办“第三届国际3D视觉感知与应用大会”。学会秉承“创新、协同、求真、务实”的精神,将通过学术交流、成果展示、成果转化等多种形式,搭建一个产学研大平台,推动光学工程的技术创新、注重光学科技的成果转化、面向应用促进光学前沿的工程化。普通代表(非中国光学工程学会会员):3607元。
2025-09-05 07:02:44
94
转载 先临三维2026届校园招聘正式启动!涵盖三维重建、标定算法、C++、图形学等
销售管培生(齿科数字化方向)、涉外法务管培生、市场营销管培生、海外营销管培生、销售管培生(工业3D扫描方向)、财务管培生、供应链管培生、人力资源管培生。不管你是敲代码的 “算法达人”、画图纸的 “设计能手”,还是擅长沟通的 “统筹高手”,我们都为你准备了适配的赛道,让你的专业能力 “有用武之地”。海外销售工程师(齿科、计量方向)、海外技术支持工程师、技术支持工程师(计量、检测方向)、应用工程师(齿科数字化方向)网格数据处理算法工程师、三维重建算法工程师、AI图形算法工程师、几何算法工程师、标定算法工程师。
2025-09-05 07:02:44
63
转载 无需训练!上交开源FastVGGT:让VGGT加速4倍!让三维重建精度更高!
我们设计了一种独特的标记分区策略,专门针对三维架构和工作,有效地消除了冗余计算,同时保持VGGT强大的重建能力。值得注意的是,在1000张输入图像的情况下, FastVGGT 比VGGT实现了4倍的速度提升,同时在长序列场景中减少了错误积累。最后,受ToMeSD启发,我们在后续各帧中实施基于区域的随机采样,确保源令牌和目标令牌的空间平衡选择,防止合并过程中局部区域关键信息的丢失。3)通过大量实验证明,我们的方法在保持重构质量的同时,显著加速了VGGT在大规模输入下的处理速度,并缓解了误差累积。
2025-09-04 07:05:52
69
转载 无需训练!厦大&上交开源FastVGGT:让VGGT加速4倍!让三维重建精度更高!
我们设计了一种独特的标记分区策略,专门针对三维架构和工作,有效地消除了冗余计算,同时保持VGGT强大的重建能力。值得注意的是,在1000张输入图像的情况下, FastVGGT 比VGGT实现了4倍的速度提升,同时在长序列场景中减少了错误积累。最后,受ToMeSD启发,我们在后续各帧中实施基于区域的随机采样,确保源令牌和目标令牌的空间平衡选择,防止合并过程中局部区域关键信息的丢失。3)通过大量实验证明,我们的方法在保持重构质量的同时,显著加速了VGGT在大规模输入下的处理速度,并缓解了误差累积。
2025-09-04 07:05:52
26
转载 CCV‘25开源 | GLEAM破解主动探索建图的泛化难题!
香港中文大学 MMLab-上海人工智能实验室具身智能中心联培博士生,研究方向是三维计算机视觉和具身智能,导师为薛天帆教授。:3D视觉工坊很荣幸邀请到了香港中文大学MMLab-上海人工智能实验室具身智能中心联培博士生。3D视觉工坊很荣幸邀请到了香港中文大学MMLab-上海人工智能实验室具身智能中心联培博士生。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,欢迎文末联系我们。香港中文大学 MMLab-上海人工智能实验室具身智能中心联培博士生。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,
2025-09-04 07:05:52
17
转载 感知、规划、预测大一统!RoboTron-Nav实现具身导航成功率81%,创历史新高!
与自动驾驶不同,语言引导的视觉导航要求智能体根据自然语言指令在未见过的视觉环境中自主探索以定位目标对象,这带来了独特的挑战,包括在不熟悉的视觉环境中有效感知周围场景、规划实现目标的策略以及预测合适的导航动作。为了解决当前导航模型缺乏深度思考和任务规划的问题,论文开发了一种新方法,通过扩展导航数据集来包含EQA对,从而明确建模导航中的决策过程。:RoboTron-Nav在CHORES-S基准测试的ObjectNav任务上实现了81.1%的成功率,创下新的最高水平,比之前的方法绝对提升了9%。
2025-09-03 07:03:13
56
转载 0.3秒极快推理!精度暴虐SAM30!OpenM3D打造开放词汇3D检测新SOTA!
开放词汇(OV)3D目标检测是一个新兴领域,但与基于3D点云的方法相比,通过基于图像的方法对其进行的探索仍然有限。在训练时,文章提出一种使用图嵌入技术的3D伪框生成方法,将2D片段组合成连贯的3D结构,该方法生成的伪框在精度和召回率上超过了其他方法。在推理时,OpenM3D仅需要多视图图像,在ScanNet200和ARKitScenes数据集上,它的性能优于强大的两阶段方法以及使用OV - 3DET和SAM3D伪框训练的模型,同时在准确性和速度上也优于基于多视图深度估计的基线方法。
2025-09-02 07:02:04
58
转载 手搓六轴机械臂:从DH参数到路径规划的实践笔记
南方科技大学本硕博,具备多年机械臂系统实物开发经验,从事机械臂相关创业多年,擅长机械臂建模与参数辨识、逆运动学与动力学算法设计、传统机械臂控制、以及机械臂实物平台的结构设计与软硬件集成。从零开始,系统构建机械臂的全流程认知,通过理论与实践相结合的方式,让学员不仅掌握机械臂的核心原理,更能亲手搭建并控制属于自己的机械臂系统,实现从理论到实践的跨越。课程以「边讲边做」讲解机械臂核心知识,将复杂的运动学与控制理论拆解为可实践的代码模块,以可运行实战支撑每个概念,助力学员从零构建可控机械臂系统。
2025-09-02 07:02:04
35
转载 NeurIPS近3万投稿爆仓,强拒400篇论文!
有眼尖的网友发现,在官方发布的「审稿人指南」中,开头写的还是「人类撰写」(human-written)和「AI生成」(AI-generated );AI顶会真的爆仓了!有人建议,干脆把NeurIPS拆成不同的方向办,如今搞ML、自然语言处理、计算机视觉等,几乎机器学习领域所有的人,都挤到一个顶会,也太过离谱。回看这一年已落幕的AI顶会,让人不禁感慨,如此巨量的投稿,却成为了一场「噩梦」。甚至,有的顶会,比如ICCV 2025强制「投稿作者」担任「审稿人」,若是在截止日期前没有完成,自己的论文也会被拒收。
2025-09-02 07:02:04
46
转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)
与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。
2025-09-01 07:04:01
86
转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)
与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。
2025-09-01 07:04:01
55
转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)
与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。
2025-09-01 07:04:01
32
转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)
与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。
2025-09-01 07:04:01
17
转载 ICCV‘25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)
与现有的单目跟踪器不同,它们在深度歧义和遮挡方面存在困难,或者需要超过20个相机的先验多视图方法以及繁琐的序列优化,我们的前馈模型直接使用实际数量的相机(例如四个)预测3D对应关系,从而实现稳健且准确的在线跟踪。给定已知的相机姿态和基于传感器的或估计的多视图深度,我们的跟踪器将多视图特征融合成一个统一的点云,并应用k最近邻相关性以及基于变换器的更新来可靠地估计长距离3D对应关系,即使在遮挡下也是如此。然后,我们根据估计的或传感器提供的深度构建一个融合的三维点云,将每个点与学习到的特征关联起来。
2025-09-01 07:04:01
23
转载 上交最新 | Interleave-VLA:首个支持交错图文指令的VLA框架
上海交通大学本科生,与严骏驰教授、丁明宇教授、杨学教授和贾萧松教授合作展开研究。研究方向为具身智能与自动驾驶的感知决策,聚焦于 VLM/VLA 的多模态学习。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,欢迎文末联系我们。上交最新 | Interleave-VLA:首个支持交错图文指令的VLA框架。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,:3D视觉工坊很荣幸邀请到了上海交通大学。3D视觉工坊很荣幸邀请到了上海交通大学。点击下方按钮预约直播。3D视觉工坊哔哩哔哩。
2025-08-29 07:03:42
44
转载 仅限女生!已经7年!一个专注3D视觉、三维重建、具身智能、无人机的圈子!
细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。本课程主要包含两部分,分别是相机标定和3D视觉,相机标定包含单目、双目和鱼眼相机标定;星球内已沉淀近超过100场3D视觉顶会论文直播回放,内容覆盖具身智能、自动驾驶、三维重建、数字人、扩散模型、3D生成等前沿领域。目前已有6400+活跃成员,主要涉及方向:工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、大模型等科技前沿方向。
2025-08-29 07:03:42
70
转载 ICLR‘25 Oral | 在线实时分割任意3D物体
同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。
2025-08-29 07:03:42
34
转载 ICLR‘25 Oral | 在线实时分割任意3D物体
同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。
2025-08-29 07:03:42
24
转载 ICLR‘25 Oral | 在线实时分割任意3D物体
同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。
2025-08-29 07:03:42
17
转载 ICLR‘25 Oral | 在线实时分割任意3D物体
同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。
2025-08-29 07:03:42
21
转载 ICLR‘25 Oral | 在线实时分割任意3D物体
同时,视觉基础模型(VFM)在 2D 计算机视觉领域取得了革命性的进展,其优异的性能使得利用 VFM 辅助具身 3D 感知成为一个有前景的方向。这是一个具有挑战性的问题,因为在输入的流式 RGB-D 视频中,未来帧是不可用的,并且实例可能在多个帧中被观察到,因此需要高效的帧间对象匹配。在 ScanNet、ScanNet200、SceneNN 和 3RScan 上的实验表明,我们的方法在在线 3D 感知模型中取得了最先进的性能,甚至在很大程度上超过了离线 VFM 辅助 3D 实例分割方法。
2025-08-29 07:03:42
13
转载 结构增强+外观嵌入:SEGS-SLAM如何让3D高斯建图实现前所未有的照片级真实感?
这是因为传统的初始化方式(如直接使用COLMAP或ORB-SLAM的点云)虽然提供了初始位置,但这些高斯点在后续优化中是自由浮动的,它们的“结构”约束很弱,很容易为了拟合像素颜色而牺牲几何的准确性。的全新框架,通过两大核心创新——“结构增强光影映射(SEPM)”和“运动中外观嵌入(AfME)”,从根本上解决了上述两大难题,在多个公开数据集上将渲染质量提升到了一个新高度,例如在TUM数据集的单目任务上,PSNR指标相较于之前的SOTA方法MonoGS提升了惊人的。这些高斯的位置是相对于其所属锚点的一个。
2025-08-28 07:02:17
72
转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D
具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。
2025-08-27 07:03:58
67
转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D
具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。
2025-08-27 07:03:58
50
转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D
具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。
2025-08-27 07:03:58
26
转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D
具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。
2025-08-27 07:03:58
28
转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D
具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。
2025-08-27 07:03:58
21
转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D
具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。
2025-08-27 07:03:58
20
转载 达摩院ICCV‘25 highlight|为空间智能的 scale-up 开辟新道路:2D图像提升至3D
具备大规模现实纹理和度量真实性的合成 3D 场景数据,为机器人导航、抓取与环境交互提供了多样化训练场景,也为 AR/VR 场景理解与虚拟物体摆放提供了更真实的环境基底。从自动驾驶车辆的三维环境感知,到家用服务机器人的室内导航,再到沉浸式 AR/VR 的环境交互,空间智能正成为 AI 的下一个制高点。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。这不仅为训练提供了充足的数据,也确保了数据的高质量和多样性,为模型的泛化能力打下坚实基础。
2025-08-27 07:03:58
14
转载 ICCV25满分论文| MTU3D统一空间理解与主动探索的具身导航
清华大学计算机系博四在读,师从邓志东教授。研究方向为3D空间理解,视觉语言学习,具身智能,空间导航。代表工作为3D-VisTA, PQ3D, MTU3D系列。,为大家着重分享他们团队的工作。如果您有相关工作需要分享,3D视觉工坊很荣幸邀请到了清华大学计算机系博四在读。扫码观看直播,或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享,欢迎文末联系我们。:3D视觉工坊很荣幸邀请到了清华大学博士生。具身智能背景介绍,和3D空间理解的关系。3D空间理解的相关工作和难点分析。3D视觉工坊哔哩哔哩。
2025-08-26 07:02:44
63
转载 探索具身智能,贝叶斯推理或成“开放世界”的关键钥匙?
当前具身智能主流方法基于数据驱动学习,如Foundation Model - powered Systems(FMS)和End - to - End modeling(E2E),其核心是从数据中学习,涉及搜索和学习操作,但与贝叶斯方法在学习和搜索视角上存在显著差异,贝叶斯学习依赖结构化先验或明确模型假设,不利于可扩展性。从学习和搜索的角度来看,贝叶斯学习范式更接近人类学习,但当代具身智能系统主要基于批量模式学习,因为贝叶斯学习方法常依赖结构化先验或明确的模型假设,不利于可扩展性。
2025-08-26 07:02:44
39
转载 ICCV‘25开源 | 无需任何标注!NVIDIA新作LongSplat:从任意拍摄的长视频重建3D高斯!
LongSplat解决了从随意捕获的长视频中合成新颖视图(NVS)的关键挑战,这些视频的特点是不规则的相机运动、未知的相机姿态和广阔的场景。在具有挑战性的基准测试上的广泛实验表明,LongSplat取得了最先进的成果,与先前的方法相比,显著提高了渲染质量、姿态精度和计算效率。随着智能手机和运动相机的普及,随意拍摄的视频已成为重要的三维内容来源。与专业采集的数据集不同,这类随意拍摄的视频具有挑战性特征:不规则的相机轨迹、长达数百甚至数千帧的长序列,以及缺乏可靠的相机位姿或精确的几何先验信息。
2025-08-25 07:03:53
66
转载 ICCV‘25开源 | 无需任何标注!NVIDIA新作LongSplat:从任意拍摄的长视频重建3D高斯!
LongSplat解决了从随意捕获的长视频中合成新颖视图(NVS)的关键挑战,这些视频的特点是不规则的相机运动、未知的相机姿态和广阔的场景。在具有挑战性的基准测试上的广泛实验表明,LongSplat取得了最先进的成果,与先前的方法相比,显著提高了渲染质量、姿态精度和计算效率。随着智能手机和运动相机的普及,随意拍摄的视频已成为重要的三维内容来源。与专业采集的数据集不同,这类随意拍摄的视频具有挑战性特征:不规则的相机轨迹、长达数百甚至数千帧的长序列,以及缺乏可靠的相机位姿或精确的几何先验信息。
2025-08-25 07:03:53
33
socket通信技术
2018-01-23
GBK.h QT中显示中文
2018-01-18
socket通信界面程序
2018-01-24
粒子滤波在图像领域的跟踪
2018-04-25
PCL1.8.0+VS2013+Win10 x64的配置教程
2018-05-08
如何在Linux下使用“linuxdeployqt”源码打包发布Qt程序
2022-07-18
ubuntu下基于Clion+QT编写的界面demo,适合入门
2022-07-11
linux下TCP通讯助手
2022-06-30
本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。
2022-06-22
Windows下TCP通讯实战demo及TCP助手
2022-06-03
Linux下的TCP通讯实战demo以及通讯助手下载
2022-06-03
UKF(无迹卡尔曼滤波)
2020-12-03
particle_filter_demo.zip
2020-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人