- 博客(6298)
- 收藏
- 关注
转载 突发!黄仁勋2026首度来华
在一场挤得水泄不通的主论坛上,黄仁勋(下图右)与Larry Fink(下图左)展开了一场关于AI未来的深度对话,豪言AI是「人类历史上最大规模基础设施建设」的基石。你们可以看到,整个芯片行业正以惊人的速度增长,」黄仁勋补充说。「我认为,为了在欧洲构建繁荣的AI生态系统,我们必须认真对待能源供给的增长,加大对基础设施层的投资,这一点是确定无疑的,」 黄仁勋说道。面对大家对AI取代人类的担忧,黄仁勋给出了反直觉的有力反击:AI不会摧毁工作,它正在让工作从「完成任务」转向「实现人生价值」。
2026-01-25 00:02:53
7
转载 顶刊TPAMI!打破SAM交互限制!DC-SAM:基于循环一致性的图像分割框架
然而,现有的 SAM 适配方法(如 VRP-SAM)主要依赖骨干网络提取的通用特征,忽略了 SAM 自身提示编码器(Prompt Encoder)的特征特性,且往往未能充分利用背景(负样本)信息来约束分割边界,导致生成的提示精度不足。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础,但将其应用于此仍受限于提示(如点或框)构建,这样的需求不仅制约了批量推理的自动化效率,更使得模型在处理复杂的连续视频时,难以维持时空一致性。中,DC-SAM 展现了对复杂结构和细粒度特征的强大捕捉能力。
2026-01-25 00:02:53
8
转载 告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA
该工作根据上述问题定义了更符合需求的MV-3DRES任务,并且通过几何和语言双分支Transformer架构和创新的PVSO优化策略,实现了在稀疏多视角下对3D场景的高效理解和精确分割。而由这种稀疏的多视图图片生成的三维重建结果往往存在噪声而且是不完整的、模糊的。,PVSO引入了加权抑制机制,放大来自有效视图的有意义梯度,同时抑制来自无目标视图的误导性信号,有效防止了训练过程中的梯度偏差。关键在于,该分支中的所有参数保持冻结,保证了训练过程中几何特征的稳定性,并消除了从稀疏图像中重新学习3D几何的需要。
2026-01-25 00:02:53
8
转载 激光雷达“线”越多,自动驾驶能力就越强?
905nm由于兼容成熟的硅基接收器,成本优势巨大,但其受到人眼安全功率的严格限制,导致其在提高线数和增加测距距离时面临天然的“天花板”。1550nm长波长路线上,由于其激光发生器的电光转换效率较低,高线束配置下的散热需求甚至可能逼近48V车载供电网络的功率分配极限,迫使整车厂不得不设计更复杂的液冷系统,这种按需分配资源的思路,不仅解决了远距离探测的分辨率难题,更避免了在不需要关注的天空或路面区域浪费昂贵的带宽和算力资源。这就像人类的眼睛,虽然余光可以看清周围,但注意力焦点却能锁死在前方的障碍物上。
2026-01-24 00:01:48
12
转载 虚实贯通的具身操作大模型!InternData-A1与InternVLA-A1
上海人工智能实验室具身智能中心青年科学家,研究方向包括机械臂操作、视觉-语言-动作大模型。在国际知名会议与期刊RSS、CVPR、NeurIPS、IEEE T-PAMI等发表论文30余篇,为具身操作大模型InternVLA-A1的项目负责人及核心贡献者、高保真仿真合成数据InternData-A1的通讯作者。:3D视觉工坊很荣幸邀请到了上海人工智能实验室具身智能中心青年科学家。3D视觉工坊很荣幸邀请到了上海人工智能实验室具身智能中心青年科学家。博士,为大家着重分享相关领域的核心内容。3D视觉工坊哔哩哔哩。
2026-01-22 07:03:33
18
转载 港科大最新360DVO+Dataset: 让单目全景相机在真实世界也“稳如老狗”的深度视觉里程计
在此基准数据集和公共合成数据集 (TartanAir V2 和 360VO) 上的大量实验表明,360DVO 超越了最先进的基线方法 (包括 360VO 和 OpenVSLAM),将鲁棒性提高了 50%,精度提高了 37.5%。该方法在各种基准测试中持续提高了精度和鲁棒性,在 360VO 数据集上实现了 10% 的 ATE 降低,在真实世界挑战序列上实现了比 OpenVSLAM 高 43.4% 的 ATE。残差块的集成解决了梯度消失问题,同时实现了鲁棒的、抗畸变特征的学习。
2026-01-22 07:03:33
21
转载 有消息称FSD不是端到端One Model,而是近200个小场景模型的组合......
Agent和Green分析的,从很多方面来说还是有差异的,个人认为FSD的模型目前还不能用LLM领域的概念来类比。最典型的例子,LLM推理能力是任意Agent的基础能力之一,但是FSD一般场景下并没有推理能力,形象点说,Agent是麻雀虽小五脏俱全,FSD是心肝肺脑各司其职。PS:特斯拉的丝滑,并非完全来自于它的算力和模型,有很大一部分是来自于特斯拉重写了车控操作系统,让从控制到执行的延时低了很多。而HW3的模型的总尺寸,也就是HW4的一半,这个带宽跑一大的个One Model肯定是跑不了这么快的。
2026-01-22 07:03:33
11
转载 ICLR 2026中稿预测出炉:首次全流程模拟审稿,结果提前放榜
不同于以往单一模型预测接受结果的方式,该框架以现实中的评审机制为参考,将各类角色,包括评审人、作者与领域主席,抽象为可交互的智能体,同时引入现实审稿过程中不存在的智能体角色,通过角色分工与信息流动,重构学术评审的决策动态。没有明显缺陷的文章被接收的概率高达 70%,而一旦存在明显的问题,如对基线模型不公平的比较,文章接收率会降至不足四成。分析结果表明,较好的视觉质量对于提高文章的接收率有积极作用,但是这种积极作用的影响范围是有限的,与论文整体的质量,创新性,以及作者回复的内容相比并非主要的决定因素。
2026-01-20 07:03:27
40
转载 NVIDIA 新作 | Q-Render:3D高斯高维特征渲染加速43倍,迈向实时开放词汇场景理解
Q-Render 的出现,这不仅是一个渲染算法的改进,更像是为 3D-GS 装上了一个“智能过滤器”。借力于 CLIP 等强大的 2D 视觉语言模型,我们希望 3D 场景中的每个点都能听得懂自然语言指令,比如“那个红色的马克杯”或“角落里的老式沙发”。:为了提速,现有的方法往往采用“降维打击”,比如将特征压缩到 3 维或 6 维,或者使用量化码本。随着泛化性 3D-GS (Generalizable 3D-GS) 的不断发展,结合 Q-Render 这样的高效渲染后端,这是本文的灵魂所在。
2026-01-20 07:03:27
28
转载 占用网络为什么让自动驾驶感知更精准?
在这种融合架构下,占用网络被赋予了更强的鲁棒性,即便在黑夜、隧道烟雾或极端天气下摄像头失效时,基于激光雷达点云生成的空间占用信息依然能确保AEB等安全功能的正常触发。在特斯拉的FSD V12架构中,占用网络提供的3D空间理解作为底层基础,支撑起了一个单一的深度学习模型,实现了从原始图像输入到驾驶指令输出的直接映射。这种预测不再是简单的线性外推,而是结合了物体的运动流信息(Flow),能准确预判行人的走位或车辆的加塞。隐式查询和级联解码等技术的出现,正是为了在有限的车载算力下,实现对三维世界的高质量重构。
2026-01-20 07:03:27
30
转载 VGGT“动态”升级!牛津开源V-DPM,前馈网络4D重建,误差降低5倍
然而,真实世界充满了运动和变化,如何从视频中高效、准确地重建动态的四维(4D,即3D空间+时间)场景,一直是计算机视觉领域的巨大挑战。它不仅在技术上展示了如何巧妙地“站在巨人肩膀上”,将静态模型的能力扩展到动态领域,更在实践上通过开源社区,将前沿的4D重建技术带给了更广泛的开发者。这项工作巧妙地将强大的静态3D重建器(如VGGT)“升级”为能够处理视频的4D重建模型,不仅能恢复场景的3D几何形状,更能捕捉其中每个点的完整3D运动轨迹。这一步巧妙地重用了静态模型的能力,完成了初步的、视角对齐的3D表示。
2026-01-19 07:01:23
49
转载 IEEE T-RO重磅 | 复杂三维环境的建图与理解,RAZER:零样本开放词汇3D重建的时空聚合框架
同一三维物体由带有不同候选标签(如“椅子”与“扶手椅”)的重叠定向边界框表示. 本方法将这些备选假设保持为体素特征,并在融合更多观测数据后,能够在不破坏底层三维轨迹的前提下,将活动标签从一种假设切换至另一种假设.. 本系统通过开放词汇分割处理配准的RGB-D输入,以实现鲁棒的三维实例跟踪. 时空特征聚合模块在融合与剪枝轨迹的同时,持续更新全景地图,该地图支持基于文本的在线三维实例检索与分割任务.:在TSDF体素中记录实例标签的观测频次,支持基于空间支持度的物体修剪与语义融合。
2026-01-18 00:01:42
48
转载 自动对焦的原理:相机与镜头如何实现精准对焦
自动对焦(AF)是摄影史上最重要的进步之一。从相位检测的快速计算到对比度检测的刻意细化,从佳能优雅的双像素设计到松下独特的 DFD 方法,自动对焦技术如同支持它们的镜头和机身一样多种多样。此外,在快节奏环境中,DFD 的精度和追踪性能无法与先进的相位检测系统相比(这也是最近的松下相机转向混合检测的原因)。佳能的 “USM”、尼康的 “SWM”、适马的 “HSM” 和索尼的 “SSM” 都是这一原理的不同实现。由于 AF 传感器和图像传感器在物理上是分离的,可能会出现轻微的对齐偏差,即所谓的前对焦或后对焦。
2026-01-18 00:01:42
75
转载 从SLAM到Spatial AI,传统SLAMer该何去何从?
除了iMAP和NICE-SLAM,这类源于NeRF的方法,还推荐去看看丁文超老师的Swift-Mapping,O2V-Mapping这些工作,他们对这种大场景的在线神经隐式地图 (Online Neural Impicit Mapping) 很有研究,比如,他们利用Octotree来管理特征向量,这其中涉及了很多细节处理。这个和第2条一样,属于深度有瑕疵的rgbd模态。但需要降低成本,可能选择更便宜的全固态雷达,或者不再依赖LiDAR,转而利用AI赋予我们的先验能力,同时探索一种长期且轻量化的地图表征。
2026-01-18 00:01:42
38
转载 调了三天代码,3D视觉圈子里的大牛一句话让我破防
细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息、承接项目。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。目前已有6400+活跃成员,主要涉及方向:工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、大模型等科技前沿方向。
2026-01-18 00:01:42
31
转载 真实世界3D分割新范式!MVGGT:融合视觉、几何与语言,性能大幅超越传统方法
过去,这项任务的研究大多建立在一个理想化的假设上:我们拥有激光雷达等设备扫描出的高质量、稠密的3D点云数据。它们获取的视图是稀疏的、不完整的,由此重建的3D场景往往充满噪声和空洞。尽管目前代码暂未公开,但MVGGT展示出的卓越性能和对真实世界场景的强大适应性,无疑为具身智能、AR/VR等领域的发展铺平了新的道路。它的任务是从多视图图像中推断出相机位姿和深度图,并生成一个初步的3D点云场景。这相当于为模型提供了一个稳定的“几何脚手架”,避免了在稀疏数据上从零开始学习3D几何的困难,保证了场景结构的一致性。
2026-01-17 00:02:00
33
转载 为什么工业缺陷检测更适合“弱监督”,而不是全监督?
全监督模型会:强行学习这些不一致,把“标注员风格”当成特征,结果就是——泛化崩溃。在实际检测中:判定缺陷“存不存在”,往往比“边界在哪”更重要。弱监督常见做法:只用良品训练,学习正常分布,把“偏离”当异常。很多缺陷类型只是工艺原因不同,在视觉上高度相似,强行分类只会导致:类内差异大,类间差异小。弱监督的优势在于:不需要为新缺陷重新建类,只要“不像正常”,就能报警。全监督的前提假设,其实非常苛刻,全监督缺陷检测隐含了几个前提:缺陷类别是。只用良品训练,输出异常热力图,找“哪里不对劲”,此时不关心缺陷类型。
2026-01-16 07:04:00
26
转载 3.47M参数 + 41FPS!港大重磅开源高效精准的驾驶世界生成模型GenieDrive
香港大学一年级博士生,师从赵恒爽教授。本科毕业于华中科技大学。研究方向为世界模型、自动驾驶与具身智能。港大重磅分享:符合物理规律的自驾世界模型GenieDrive。:3D视觉工坊很荣幸邀请到了香港大学一年级博士生。3D视觉工坊很荣幸邀请到了香港大学一年级博士生。,为大家着重分享相关领域的核心内容。提出符合物理的自驾世界模型GenieDrive。,为大家着重分享相关领域的核心内容。GenieDrive的效果演示。世界模型在自动驾驶领域的作用。3D视觉工坊哔哩哔哩。香港大学一年级博士生。分析现有自驾世界模型。
2026-01-16 07:04:00
34
转载 单步相位封神,仅需8.3%投影时间!深度学习+HDR结构光三维重建,实现亚50微米级测量精度!
HDR条纹生成模块通过长短曝光的低动态范围条纹图输入,利用注意力权重引导网络聚焦于高反射物体的低曝光条纹和低反射物体的高曝光条纹特征,同时通过特征层的权重蒸馏约束特征边界,从而合成具有相位特征的HDR条纹,显著减少所需曝光次数。然而,条纹轮廓测量的前提是获取精准的调制图案,这一过程中,受到相机成像动态范围的限制,尤其是对于具有不同表面反射率的物体,重建效果往往不理想,极大地限制了其在复杂场景中的应用,特别是在工业零部件的测量中,传统的多次曝光图案合成方法效率低,难以满足快速和高精度的需求。
2026-01-15 07:02:46
47
转载 为什么目前落地的主流SLAM技术很少用神经网络进行特征提取
假如我选dso,或者最新继承者dm-vio,或者时髦的3DGS-SLAM,如果是因为它定位效果好我选它自然ok,但是如果是为了它炫酷的稠密点云选它,此时就需要仔细琢磨一下我的需求到底是定位还是建图,因为我大可以在特征点法vslam的基础上加一个深度滤波的建图线程。因此算力成本是一个非常重要的因素。如果让我选,我更可能选滤波的方案,它对算力要求比优化更少,现有开源方案工程化程度高,需要的修改少,也比较成熟,采用静止初始化,有些地方没看懂也不影响使用,这就是原型方案能力强可以弥补人员能力弱和硬件能力弱的缺点。
2026-01-15 07:02:46
43
转载 港大重磅开源DrivePI:基于4DMLLM的统一理解,感知,预测和规划自驾模型
此前,他的研究聚焦于自动驾驶三维感知领域,涵盖三维目标检测与跟踪、多模态表征学习以及端到端自动驾驶系统。目前,他的研究方向主要包括:1.统一多模态表征学习:通过跨模态、跨域数据集的统一表征学习,构建大规模三维感知模型;3.具身智能:推进具身人工智能系统研究,包括具身基础模型与高效的视觉-语言-动作(VLA)框架。港大和引望重磅分享DrivePI:基于4DMLLM的统一理解,感知,预测和规划自驾模型。:3D视觉工坊很荣幸邀请到了香港大学计算与数据科学学院博士后研究员。,为大家着重分享相关领域的核心内容。
2026-01-15 07:02:46
37
转载 小鹏放弃初代VLA的背后:一场「第一性原理」的终极豪赌
年初,何小鹏在测试新一版的系统后,发现端到端小模型的确比之前的泛化性强了一些,但好像永远无法做到真正的自动驾驶:“因为它就像一个跷跷板——效率提高了,体验下降了;新一代的VLA,可以说是「简单粗暴」地遵从了「第一性原理」——省去从Vison到Language的转译部分,以及云端繁重的复杂计算,告别数据标注和信息损失,极大提高推理速度。更值得一提的是,当车辆在施工工地面对穿反光背心的道路指挥施工人员时,完全理解了对方的手势——车辆先停了一下,然后又跟随手势通行。例如对错误出口的提示,最佳车道的选择等等。
2026-01-15 07:02:46
28
转载 99%检出率 + 小时级上线!视比特翔云平台:让工业AI运维告别人工,落地即高效
三大核心模块的无缝联动,让内置的Agent化身“全流程运维管家”,自主完成任务调度、模型调优、异常修复与数据流转,覆盖从 AI 模型开发、协同管理到现场执行的全部环节。面对部署流程繁琐、硬件投入超支、适配周期漫长的智能化升级困境,翔云平台从设计之初就坚持“开箱即用、落地无忧” 的理念,以Agentic AIOps 智能中枢为核心,平台适配不同生态硬件、Agent自主对流程调度与异常兜底,将部署门槛降到最低,让智能化升级变得触手可及。它的存在,确保了AI大脑的指令能够精准、实时、稳定地传达至生产末梢。
2026-01-14 07:03:24
43
转载 一个模型统一4D世界生成与重建,港科大One4D框架来了
为了使用同一个视频模型统一 4D 的生成和重建,One4D 基于Wan Video的多任务框架,提出了 Unified Masked Conditioning(UMC),把不同类型的条件如单帧、稀疏帧、全视频,统一打包成一个条件视频,缺失帧用 0 填充,并使用一个 mask 张量指定哪些帧需要生成。这套数据策略带来的直接收益是,合成数据提供几何精度与稳定性,真实数据提供视觉多样性与真实分布,从而让 One4D 在保持视频质感的同时,也能输出可用、对齐、时序一致的 4D 几何结果。确保两个模态能够相对独立。
2026-01-14 07:03:24
44
转载 97.5%成功率!LGGD 完美执行机械臂抓取任务,无惧杂乱物体
在OCID-VLG和Grasp-Anything++数据集上的实验表明,LGGD超越了现有的语言引导抓取方法,对未见物体和多样的语言查询表现出很强的泛化能力。通过两个细化分支分别对分割掩码和抓取参数进行细化,每个分支遵循对称的编码器-解码器结构,在对数上进行操作,确保梯度在粗预测和细化预测路径上流动,提高精度和语义连贯性。:采用深度监督对粗预测和细化输出进行联合优化,整体训练目标由细化损失和粗预测损失组成,通过系数控制粗监督的贡献,鼓励网络在早期阶段产生语义一致的预测,细化模块专注于校正残差误差。
2026-01-14 07:03:24
37
转载 终于不用为ROS 2的bag文件导出发愁了:这个工具一口气解决所有痛点
它的核心思路是:你有一个装满数据的bag文件,它能帮你把里面的任何话题数据,转换成你能直接用的格式,比如CSV表格、JSON文件、PCD点云、PNG图片、MP4视频等等。的GUI用Qt写的,启动后直接加载bag文件,左边是话题树,右边是导出配置,点几下就能搞定。很多ROS开发者是命令行原住民,但当你面对一个几十GB的bag文件,里面嵌套着十几个话题,想快速预览并选择要导出的内容时,命令行就显得笨拙了。更关键的是插件系统。:用GUI加载bag,看看有哪些话题,预览数据,尝试不同导出格式,保存配置文件。
2026-01-13 07:01:36
70
转载 【四旋翼】四旋翼无人机离散建模与增量PID控制:从线性化到轨迹跟踪
为了在保证系统可控、可分析的前提下进行控制器设计,通常需要在悬停工作点附近对无人机动力学进行小扰动线性化建模,再将连续线性模型离散化,最终在离散时间域实现控制律设计。在该模型之上,设计了包含位置外环与姿态内环的增量式 PID 控制结构,实现了悬停与圆轨迹跟踪两类典型任务的仿真验证。本文首先基于经典六自由度刚体动力学建立四旋翼无人机的连续非线性模型,并在悬停平衡点进行小角度线性化,得到包含 12 个状态与 4 个输入的连续线性化模型。以上为非线性模型,难以直接用于线性控制设计,因此需在悬停条件下线性化。
2026-01-12 07:02:13
48
转载 激光雷达如何去除动态点云?
基于感知的,通常是基于网络的检测/分割+聚类+运动估计,优点是基建成熟,缺点是需要GPU/NPU,在移动平台上受限,只能针对特定种类物体(车辆+行人),对小物体准确率有限;在点云层面可以拒绝掉大多数运动物体,生成的栅格地图也更加干净,速度较快(百ms量级,关键帧层面可以做到实时,而。激光点云的稀疏性导致物体表面每次打到不同的点,典型的是地面点经常被误删(因为地面通常是许多个圆圈)、细小的静态物体会删除(树叶、树枝等)的概率栅格刷新,由于需要计算射线,3D场景相对费时(不够实时),2D可以。
2026-01-12 07:02:13
45
转载 快速渲染+精准几何重建!SDFoam如何突破NeRF和SDF重建的固有局限?
在各种不同的场景中,我们提出的这种混合隐式-显式建模方法——即SDFoam技术——在保持高效性的同时,显著提高了网格重建的精度(以切角误差作为评估指标),并且其渲染效果也与传统方法相当。具体而言,基于辐射度的方法将场景表示为针对外观进行优化的体积密度场,而基于有符号距离函数(Signed Distance Function,SDF)的方法则采用有符号距离函数来恢复具有更高几何精度的隐式曲面。与依赖事后曲面重建算法的方法不同,我们的方法通过利用有符号距离函数,直接从训练好的沃罗诺伊结构中提取曲面。
2026-01-12 07:02:13
35
转载 Hier-SLAM:LLM 赋能的分层语义 3D 高斯泼溅,突破大规模语义 SLAM 的效率瓶颈
例如,底层是具体的对象(Stool, Sofa),上一层归类为家具(Furniture),再上一层归类为物体(Object),顶层则是场景(Scene)。:展示了从粗粒度到细粒度的语义渲染效果。Hier-SLAM 的出现,为机器人在复杂、开放的真实世界中进行长时间、大规模的语义导航提供了一种切实可行的技术路径,展示了“结构化先验 + 高斯泼溅”的巨大潜力。:设计了层级内(Inter-level)和跨层级(Cross-level)的双重优化策略,实现对场景从“物体”到“具体家具”再到“椅子”的渐进式理解。
2026-01-10 00:02:57
99
原创 一文详解三种结构光方案:散斑结构光 / 多频结构光 / 相移 + 格雷码
由于相机与投影器的视角差异,图案会因物体表面几何形状而产生畸变,通过分析这种畸变可以反推物体的三维形貌。数值为典型工业或消费级实现的经验范围,具体性能取决于投影器亮度/分辨率、相机噪声、标定质量、表面反射率与环境光等因素。散斑结构光通过投射具有高度伪随机性的激光散斑图案,利用散斑图案的空间唯一性特征,对三维空间进行直接标记。相机采集单帧图像后,通过与标定参考图案的相关匹配或深度学习方法反演获得视差,再通过三角测量计算深度。提供最高的测量精度,格雷码的单位距离特性保证了可靠的级次编码。
2026-01-10 00:02:57
677
转载 突发反转,外卖程序员爆料算法陷阱,已被证伪!
庆幸的是 Casey 凭借着多年的记者经验并没有鲁莽行事,而是希望能够更好地理解这份文档,于是他问举报人能否介绍一些他现在或者以前的同事帮帮忙。最后还有那份看上去很唬人的“内部文档”,大部分内容都在描述帖子中提到的“绝望评分”背后的 AI 系统技术架构。谁又会费尽心思伪造证件?在 Casey 的报道中,他感慨真相总是远远慢于谎言的传播,而有了 AI 工具,造谣者就能让谎言传播得更快。加上 Signal 之后,举报人反复强调需要保持匿名,Casey 表示理解,但仍然需要核实他的身份。
2026-01-09 07:05:12
56
转载 一文详解如何在无人机上部署FAST-LIO算法
在板载计算机中运行激光雷达SLAM算法(课程配套FAST-LIO算法),实现位姿估计,并且将结果发送到飞控,飞控中运行EKF算法融合外部定位。在板载计算机中运行Ego-Planner规划算法,得到雷达坐标系下规划的路径指令,包括三维位置、速度、加速度、偏航角、以及偏航角速度,以ROS节点发布;在板载计算机中运行规划算法(课程配套EGO-Planner),实现在有障碍环境中的实时路径规划,并且将规划指令发送到无人机,控制无人机运动。仅供参考,随着版本更新,最后的发货版本可能会略有差异,请在购买前与客服确认。
2026-01-09 07:05:12
38
转载 霸气碾压纯传感器方案!空间检索如何重塑自驾决策与世界模型
复旦大学可信具身智能研究院助理教授,本博毕业于上海交通大学,研究方向自动驾驶、具身智能、世界模型。在TPAMI、CVPR、NeurIPS等会议期刊发表论文二十余篇,谷歌学术引用3000余次,在端到端驾驶领域做出系列开创性工作,最新包括Bench2Drive、DriveTransformer、DriveVGGT等。,为大家着重分享相关领域的核心内容。:3D视觉工坊很荣幸邀请到了复旦大学可信具身智能研究院助理教授。如果您有相关工作需要分享,3D视觉工坊很荣幸邀请到了复旦大学可信具身智能研究院助理教授。
2026-01-09 07:05:12
33
转载 无限重建!上交开源InfiniteVGGT:打破长序列3D视觉几何估计显存瓶颈
因此,真正的解决方案应当是构建一个动态维持的记忆机制——在严格受限的显存预算下,像生物记忆一样实时“新陈代谢”,不断以高价值的新特征置换旧的冗余,确保有限的显存始终承载着最关键的几何线索。第一帧定义了世界坐标系的原点和尺度。在传统的 Transformer 设计中,KV Cache 预算通常被均匀地分配给每一层,这样就会造成“深层显存过剩(保存较多重复的语义Token),浅层显存不足(丢失了关键的几何细节)”的资源错配。我们发现,视频流中相邻帧的视角变化极小,导致以Token形式存储的记忆存在大量冗余。
2026-01-09 07:05:12
40
转载 实时检测新王者:YOLO-Master 融合MOE与专属Transformer,性能全面碾压YOLO11、v12、v13
这就实现了所谓的“稀疏激活”,虽然模型总参数量因为多个专家的存在而增加了,但单次前向传播的实际计算量(FLOPs)却得到了有效控制,甚至可能更低。论文中,为了在保持实时性的同时获取多尺度感受野,每个专家实际上是由不同卷积核大小(如 3, 5, 7...)的深度可分离卷积(DWConv) 构成的轻量化模块,而非计算量较大的 Transformer 块。思想,让模型学会了“看菜下碟”:遇到简单的场景就少用点力,遇到复杂的场景就派更多的“专家”上场,实现了计算资源的动态分配。:这是ES-MoE的“大脑”。
2026-01-08 07:01:51
44
转载 VLNVerse:首个全栈式、物理仿真、全任务统一的具身智能导航基准
传统的模拟器(如 Matterport3D)是基于离散图(Graph)的。:机器人不仅要会走路,还得懂语义(Semantic Understanding),知道“厨房”通常长什么样,“微波炉”可能在哪里,需要具备常识推理能力。:基于 Isaac Sim,提供物理感知的控制、模块化传感器(RGB, Depth, LiDAR)和参数化的机器人身体(不再是悬浮的相机)。:R2R、REVERIE、HANNA 等任务各自为战,缺乏一个统一的框架来同时评估细粒度导航、目标导向导航、对话导航等多种能力。
2026-01-08 07:01:51
55
转载 卡尔曼滤波器的通俗解释
如果测量无法覆盖状态中的所有特征,例如,状态空间包含 3 个元素 [x, y, z],则我们的传感器只能测量 x 和 y。卡尔曼滤波器是一个算法,用于预测物体随时间变化的“状态”(如位置、速度等),即使在传感器数据充满噪声和不确定性的情况下。(有误差的测量),在脑海里绘制出最可能的航线。这表示在真实状态为 x 的情况下观察到测量值 z 的概率。:状态转移矩阵(状态如何演变,例如,对于匀速运动模型和一个时间步长,F 如下所示:)。(测量):你摸到墙上的一个标志,感觉在12米处,但手感可能不准(也有误差)
2026-01-08 07:01:51
39
转载 NeurIPS 2025开源|港中文新作RankSEG:无需重训模型,仅需三行代码即可显著提升语义分割精度
例如,在下面这个由两个像素组成的简化场景中,即便其中一个像素的预测概率低于 0.5,为了获得最优的 Dice 分数,依然应该将其判定为前景。针对以上难点,我们将在下文中引入近似化的技巧,旨在进一步简化计算,同时提出更为实用(practical)的算法方案,以促进 RankSEG 在各类实际分割任务中的高效应用。:所有结果均基于同一个训练模型,RankSEG 作为模型输出的“后处理”操作,避免了因神经网络训练过程中的随机性导致的性能波动,保证了对比结果的客观性。借助该方法,我们用定理2中的。
2026-01-07 07:01:54
52
转载 CVPR 2025满分论文! OverLoCK: 一种仿生的卷积神经网络视觉基础模型
值得注意的是,所提出的ContMix是一种即插即用的模块。例如,30M的参数量规模的OverLoCK-Tiny模型在ImageNet-1K达到了84.2%的Top-1准确率,相比于先前ConvNet,Transformer,以及Mamba模型具有明显的优势。具体来说,Top-down Guidance会同时参与计算Gate和动态卷积权重的生成,还会整合到feature map中,从而全方位的将high-level语义信息注入到Focus-Net中,获得更为鲁棒的特征表示能力。
2026-01-07 07:01:54
43
socket通信技术
2018-01-23
GBK.h QT中显示中文
2018-01-18
socket通信界面程序
2018-01-24
粒子滤波在图像领域的跟踪
2018-04-25
PCL1.8.0+VS2013+Win10 x64的配置教程
2018-05-08
如何在Linux下使用“linuxdeployqt”源码打包发布Qt程序
2022-07-18
ubuntu下基于Clion+QT编写的界面demo,适合入门
2022-07-11
linux下TCP通讯助手
2022-06-30
本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。
2022-06-22
Windows下TCP通讯实战demo及TCP助手
2022-06-03
Linux下的TCP通讯实战demo以及通讯助手下载
2022-06-03
UKF(无迹卡尔曼滤波)
2020-12-03
particle_filter_demo.zip
2020-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅