自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(418)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 2024年自动驾驶规划控制面试及答案

A*吸取了Dijkstra 算法中的cost_so_far,为每个边长设置权值,不停的计算每个顶点到起始顶点的距离(G),以获得最短路线, 同时也汲取贪婪最佳优先搜索算法中不断向目标前进优势,并持续计算每个顶点到目标顶点的距离(Heuristic distance),以引导搜索队列不断想目标逼近,从而搜索更少的顶点,保持寻路的高效。DWA,TEB算法。通常情况下,在机器人高速运动的时候,想要得到非常连续、平滑、噪音低的运动控制,第3个约束条件是必不可少的,有的甚至还要求加速度的导数jerk都是连续的。

2024-07-22 18:43:12 1354

原创 RSS‘25|CMU提出统一空中操作框架:以末端执行器为中心,无人机实现高精度遥操作

论文题目:Flying Hand: End-Effector-Centric Framework for Versatile Aerial Manipulation Teleoperation and Policy Learning论文作者:Guanqi He、Xiaofeng Guo、Luyi Tang、Yuanhang Zhang、Mohammadreza Mousaei、Jiahe Xu、Junyi Geng、Sebastian Scherer、Guanya Shi。

2025-04-28 17:34:29 725

原创 开源|上海AILab:自动驾驶仿真平台LimSim Series,兼容端到端/知识驱动/模块化技术路线

随着自动驾驶技术快速发展,有效的仿真环境成为验证与增强这些系统的关键。来自上海人工智能实验室的研究团队推出了LimSim Series——一个革命性的自动驾驶仿真平台,它巧妙解决了行业面临的三大挑战:仿真精度与持续时间的平衡、功能性与实用性的冲突,以及评估系统的全面性。该平台采用兴趣区域创新性地优化计算资源,支持模块化、端到端及知识驱动型自动驾驶系统,并通过多维度评估指标提供深入系统性能分析。让一起探索LimSim Series如何加速自动驾驶技术的迭代与突破!©️【深蓝AI】编译。

2025-04-27 17:37:15 1032

原创 IEEE综述 | 车道拓扑推理20年演进:从程序化建模到车载传感器

车道拓扑推理技术在高精(HD)建图和自动驾驶应用中发挥着至关重要的作用。虽然近年来在该领域中取得了重大进展,但是很少有文献综合概述这些工作。本项调研系统性地回顾了车道拓扑推理方法的演变和现状,将其分为三种主要范式:基于程序化建模的方法、基于航拍图像的方法和基于车载传感器的方法。本文分析了从早期基于规则的方法到现代基于学习的解决方案的进展,这些基于学习的解决方案利用了transformers、图神经网络(GNNs)和其它深度学习架构。

2025-04-24 17:36:02 871

原创 20亿参数仅0.4GB,能耗骤降90%!微软开源全球首个2B参数「原生1.58bit」大模型

BitNet b1.58 2B4T 不仅是一款模型,更是一场范式革命。它让 AI 走进资源受限的边缘设备,助力中小企业与个人开发者拥抱先进技术;能耗降低 90%,为绿色 AI 树立标杆;开源生态降低技术门槛,激发全球创新。这款模型质疑了全精度权重的必要性,或将引领模型压缩新潮流。未来,BitNet b1.58 有望向更大规模扩展,支持多语言和多模态任务,结合专用硬件释放更大潜力。尽管在知识任务和硬件适配上仍有改进空间,其创新性已足以震撼行业。

2025-04-22 15:57:28 915

原创 Science子刊|浙大高飞团队实现无人机「完全自主特技飞行」,成功率100%碾压人类顶尖飞手!

导读特技飞行涉及复杂的飞行动作,这些动作通常在常规飞行操作中不会执行,因为它们需要不稳定的姿态,本质上具有危险性。然而,这些空中特技对许多飞行动物的生存至关重要,往往是本能行为。例如,雀鹰和猎鹰能够通过垂直或倒置飞行迅速改变速度和方向,以追捕猎物或避开障碍物。蝙蝠擅长在空中翻转并倒挂在洞穴顶部,而乌鸦则展示令人印象深刻的特技来吸引同类。对这些物种而言,特技动作提供了在复杂环境中增强适应性和敏捷性的关键生存技能,用于捕食、栖息和交配。©️【深蓝AI】编译。

2025-04-21 17:58:09 1286

原创 RSS 2025|苏黎世提出「LLM-MPC混合架构」增强自动驾驶,推理速度提升10.5倍!

实验还表明,RAG普遍提高了各模型的决策性能,而对于实际部署至关重要的模型量化对准确率的影响甚微,证明了优化后模型在保持性能的同时具有高效性。结果如下图所示,与采用固定参数的基线MPC相比,经过RAG和LoRA优化的LLM能够根据指令(如“保持车道中心”、“更平稳地驾驶”或“倒车”)显著改变车辆的闭环行为特性,在多个衡量控制效果的指标(如路径跟踪、速度跟踪、加速度平滑度等RMSE)上取得了平均高达52.2%的改善(以Qwen2.5为例),充分展示了该框架利用自然语言进行灵活控制调整的潜力。

2025-04-21 17:37:57 838

原创 多数据集SOTA!|SmartWay:基于航点预测增强与回溯的「零样本视觉语言导航」

本文提出了一种适用于零样本视觉-语言导航(VLN-CE)任务的全新框架,通过优化航点预测与自适应决策机制,实现了更鲁棒的路径规划与高效的错误恢复。与以往方法相比,该研究在航点预测器设计上进行了系统性改进:结合了更强的视觉编码器、掩码式交叉注意力融合机制以及基于占据信息的损失函数,从而生成更准确、避障能力更强的航点预测结果。此外,该研究首次在连续导航环境中探索了多模态大语言模型(MLLM)作为导航器的应用,并引入了创新的回溯机制,使得导航系统在不依赖特定训练的前提下,也能实现显著的性能提升。

2025-04-17 18:05:12 609

原创 已开源!CMU提出NavRL :基于强化学习的无人机自主导航和动态避障新方案

©️【深蓝AI】编译本文由paper一作——Zhefan Xu授权【深蓝AI】编译发布!论文题目:论文作者:近年来,强化学习(RL)在无人机控制领域展现出巨大潜力,为解决上述问题提供了新思路。强化学习允许无人机通过经验学习决策能力,提供更好的适应性和性能。然而,将强化学习应用于实际无人机导航仍面临三大挑战:1. 模拟到现实的迁移问题:强化学习需要在模拟环境中训练无人机,但模拟与现实世界之间存在感知信息差距,特别是相机图像方面。

2025-04-14 17:39:38 1043

原创 DeepSeek R2前兆曝光!DeepSeek联合清华提出:奖励模型推理时Scaling的全新方法

为了实现推理时的计算扩展,该研究采用并行采样方式,使模型能够在不同的原则下生成多个评析内容并进行投票,提升奖励判断的准确性与细粒度。对于提出的方法,该研究实现了 DeepSeek-GRM-27B-RFT(冷启动阶段版本),并在不同规模的语言模型上训练了 DeepSeek-GRM,包括 DeepSeek-V2-Lite(16B MoE)、Gemma-2-27B、DeepSeek-V2.5(236B MoE)以及 DeepSeek-V3(671B MoE)。(2) 在各种领域中生成准确奖励的能力。

2025-04-10 18:11:13 745

原创 KITTI多模态3D检测新SOTA!实例级对比蒸馏框架+14FPS加速登顶榜单

导读目前在工业界和学术界针对激光雷达和相机多模态融合的感知算法进行了广泛且深入的研究,并且取得了显著的成绩。相机可以捕获目标颜色和纹理等丰富的语义细节,激光雷达点云可以提供目标准确的深度和几何结构信息。利用图像和点云模态之间信息互补的优势,显著提升了3D目标检测任务的性能上限。虽然多模态3D目标检测算法可以充分利用不同模态之间互补的信息,但是由于稀疏性和视角的差异,这些模态数据之间的内在差异性也会对多模态3D目标检测提出重大挑战。此外,多模态的感知算法模型通常要优于使用单一模态的感知算法模型。

2025-04-09 19:38:17 918

原创 琴键上的强化学习:让机器人在真实世界里弹钢琴!

不过,与以往环境不同的是,这里的观察空间不包含指法信息,这对机器人的探索增加了难度,也凸显了合理设计奖励函数的重要性。在科技飞速发展的今天,机器人的能力边界不断拓展。这项关于机器人弹钢琴的研究为机器人操作领域开辟了新方向,尽管目前还存在一些不足,但随着技术的不断进步,相信机器人在复杂操作任务上会越来越接近人类水平,为未来的科技发展带来更多惊喜。硬件上,现有的多指机器人手灵活性不如人类,手指的伸展和弯曲受限,手腕使用也不够灵活,后续研究可以探索如何改进硬件,减少不必要的手部动作,利用更灵巧的机器人手。

2025-04-09 19:36:55 646

原创 闭环SOTA!北航DiffAD:基于扩散模型实现端到端自动驾驶「多任务闭环统一」

端到端自动驾驶(E2E-AD)已经快速成为实现完全自主驾驶的一种有前景的方法。然而,现有的E2E-AD系统通常采用传统的多任务框架,通过单独的特定任务头来解决感知、预测和规划任务。尽管这些系统以完全可微分的方式进行训练,但是它们仍然会遇到任务协调问题,系统复杂度仍然很高。本项工作引入了DiffAD,这是一种新的扩散概率模型,它将自动驾驶重新定义为一种条件图像生成任务。

2025-04-02 17:54:37 854

原创 上海交大发布CoLMDriver:首个基于LLM的全流程协作驾驶系统,成功率提升11%!

©️【深蓝AI】编译论文题目:CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving论文作者:Changxing Liu, Genjia Liu, Zijun Wang, Jinchang Yang, Siheng Chen论文地址:https://arxiv.org/abs/2503.08683。

2025-04-01 17:56:07 504

原创 ICLR 2025|华科OVTR:首次实现端到端开放词汇多目标跟踪,刷新性能SOTA!

多目标跟踪(MOT)是视频感知的核心技术,广泛应用于自动驾驶、视频分析等领域。传统 MOT 方法通常基于闭合词汇(closed-vocabulary),只能跟踪训练时见过的类别,如“人”、“车”、“自行车”。然而,现实世界复杂多变,经常出现训练时未见过的新类别,传统模型在这种情况下往往表现不佳。而人类却能轻松识别并跟踪任何物体,这种能力启发了研究者提出开放词汇多目标跟踪(OVMOT)的概念——让模型在零样本条件下识别和跟踪新类别,以满足智能城市、自动驾驶等场景的多样化需求。然而,1.

2025-03-28 18:02:30 721

原创 已开源|清华大学发布:首个融合4D雷达的多模态协同感知数据集,35万标注框!

指利用单一平台(路侧单元或车载设备)的传感器数据完成3D物体识别。单端3D目标检测面临两大核心挑战:需分别实现相机图像的三维几何映射、LiDAR点云的高效特征提取、4D雷达(含速度信息)的稀疏数据表征,确保各模态独立感知精度。需解决跨模态时空对齐(坐标系/时序同步)、动态场景下的数据错位补偿,以及传感器异常时的鲁棒性保障,实现稳定融合检测。该任务包含两种典型视角场景:基于V2X-Radar-I数据集,通过部署在道路基础设施的雷达等传感器实现环境目标检测;

2025-03-25 19:09:01 958

原创 地平线AlphaDrive:首个基于GRPO的自动驾驶大模型,仅用20%数据,性能超越SFT 35%!

​端到端自动驾驶成为最具代表性的模型之一。它们以传感器数据为输入,利用可学习的神经网络规划车辆的未来轨迹。得益于大规模驾驶演示数据,端到端模型通过扩展训练数据和增加模型参数,不断提升了其规划能力。然而,由于其黑盒性质和缺乏常识,端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。同时,大语言模型(LLMs)展现出卓越的理解和推理能力。它们的能力已从单模态的文本理解扩展到多模态的视觉语言处理。VLMs 的常识和推理能力可以弥补端到端模型的局限性。将VLMs应用于自动驾驶的研究当前分为两个方向。

2025-03-24 17:56:23 1068

原创 人大&字节最新成果|FlexWorld:首次实现从单图生成高保真动态3D场景的突破性框架

其次,摄像机轨迹规划的重要性通过去掉 Zoom-out 轨迹的实验得以验证,生成场景的内容与输入视角不匹配,导致结构模糊(见图 9b),说明初始拉远变焦(Zoom-out)对于扩展三维场景不可或缺。特别地,该研究通过在高精度深度估计的训练数据上微调先进的视频基础模型,使得 V2V 模型能够在大范围摄像机变化的情况下生成高质量的内容。综合定性与定量结果,FlexWorld 生成的三维场景不仅在 3D 结构一致性上表现优异,同时在视觉质量方面也展现了显著优势,证明了其在三维场景生成任务中的有效性。

2025-03-23 18:56:06 730

原创 7大主流仿真平台深度解析|具身智能革新:GPU加速80倍+生成式AI,效率飙升!

在机器人和人工智能研究领域,仿真平台扮演着至关重要的角色。它们不仅能够加速算法开发和验证过程,还能显著降低研究成本并提高安全性。高质量的仿真环境使研究人员能够在不涉及实体硬件的情况下,快速测试和优化各种算法和策略。这种方法不仅降低了设备损坏的风险,也大大减少了实验所需的时间和资源投入。特别是在涉及复杂场景或危险操作的研究中,仿真平台的价值更加凸显。本文将详细介绍七个主流的仿真平台,涵盖它们的特点、应用场景和技术优势。这些平台各具特色,能够满足不同研究和开发需求。

2025-03-21 17:56:03 817

原创 【IROS 2025】CMU提出路径规划器PIPE:机器人探索效率提升14.6%,地图准确率提高9.3%!

该研究提出了一种基于路径的信息增益探索方法(PIPE),旨在优化机器人在未知环境中的探索效率。不同于传统的基于前沿点的探索方法,PIPE 通过结合环境预测、路径级别的信息增益计算和不确定性评估,使机器人能够在选择路径时更加智能化,从而最大程度地减少探索过程中的信息不确定性。实验结果表明,PIPE 在多个复杂室内环境中均表现出优越的探索效率和更高的地图构建精度。

2025-03-20 17:57:43 1365

原创 顶刊收录|武大最新成果:具身智能目标导航新方案,成功率提升23%,路径效率优化31%!

该研究提出了面向物体-目标导航的情境感知图推理(CGI)与生成式对抗模仿学习(GAIL)。得益于所提出的CGI,智能体能够在导航过程中根据图像、动作和记忆等动态上下文信息灵活推断对象关系。结合图注意力网络,CGI能够让智能体将注意力集中在更加关键的对象关联上,从而有效缩小搜索范围。与此同时,通过GAIL生成动态奖励并与环境奖励相结合,智能体可以在专家示例的指引下学会更稳健的导航策略,从而避免陷入卡住或循环运动等失败状态。最后,研究将A3C强化学习算法与GAIL相结合,以实现稳定的策略训练。

2025-03-19 17:37:31 758

原创 Nature子刊|机器人终身学习框架LEGION实现零遗忘,成功率高达84%!

其创新的知识空间设计使机器人能够动态推断、保存和组合任务知识,而语言嵌入的引入则显著增强了机器人对任务语义的理解能力,使其在面对复杂、长时程任务时表现出更强的泛化能力和灵活性。近日,来自慕尼黑工业大学、南京大学、中山大学和清华大学的研究团队提出了一种名为基于贝叶斯非参数模型的语言嵌入生成增量离线策略强化学习框架(LEGION)的机器人终身强化学习框架,该框架通过结合贝叶斯非参数模型和语言嵌入,实现了机器人在终身学习中的知识积累与重利用,并在《Nature Machine Intelligence》上发表。

2025-03-18 18:30:29 468

原创 Topo2Seq:突破DETR局限,车道拓扑推理新高度

从透视图(PV)中提取车道拓扑对于自动驾驶的规划和控制是至关重要的。该方法为自动驾驶汽车提取潜在的可行驶轨迹,而不依赖于高精(HD)地图。然而,DETR类框架的无序性和弱远距离感知可能会导致线段端点错位和拓扑预测能力有限等问题。受到语言模型中上下文关系学习的启发,道路的连接关系可以表征为显式的拓扑序列。本文引入了Topo2Seq,这是一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq的核心概念为车道线段解码器和拓扑序列解码器之间随机顺序的提示到序列学习。

2025-03-16 19:57:47 699

原创 NVIDIA×卡内基梅隆大学重磅突破:大语言模型重塑车联网协同自动驾驶,开创V2V-LLM新范式

随着深度学习算法的进步、计算基础设施的发展以及大规模真实世界驾驶数据集的发布,自动驾驶技术取得了显著进展。然而,当前自动驾驶车辆的感知和规划系统主要依赖于其自身的LiDAR传感器和摄像头来检测周围重要物体并规划未来轨迹。这种方法在传感器被遮挡或发生故障时可能会遇到安全关键问题。在这种情况下,自动驾驶车辆无法准确检测所有附近的重要物体,导致后续轨迹规划结果变得不可靠。为了解决这个安全关键问题,近期研究提出了基于车辆间(V2V)通信的协同感知算法。

2025-03-16 19:57:19 866

原创 避障成功率提升40%! ClipRover 仅使用单目视觉实现零样本推理+高效导航

为了区分可导航的空间和不可导航的空间,文章作者设计了一组描述清洁且可导航环境的正向提示,例如:“一张(平坦|开放|宽阔|清晰的){地板|地面|走廊}的照片”,以及一组描述被障碍物堵塞的空间的负向提示,例如:“一张[裁剪|模糊|不完整]的(被阻挡|杂乱|拥挤的){场景|空间}的照片”和“一张(大|阻挡通道的){物体|物品}的照片”。本论文提出了ClipRover,一个新颖的框架,利用通用视觉语言模型(VLM)的空间上下文感知能力,引导机器人在未知环境中的探索和目标发现。左侧:代表机器人机载摄像头的合成图像;

2025-03-13 17:10:09 944

原创 成功率暴涨44%!VL-Nav:像素级视觉语言导航,让机器人像人一样思考

在本文中,作者介绍了 VL-Nav,这是一种视觉 - 语言导航框架,能够在资源受限的平台上实现实时高效运行。通过将像素级视觉 - 语言特征与基于好奇心的探索策略相结合,作者的 CVL 空间推理方法在多种室内和室外环境中展现了稳健的性能。在实际测试中,VL-Nav 不仅在 Jetson Orin NX 上实现了 30 赫兹的实时导航,而且比现有方法提高了 44.15%,总体成功率达到 86.3%。

2025-03-13 17:09:30 785

原创 跟踪性能提高11%|端到端新架构DMAD:通过分离语义-运动学习解决负迁移难题

感知环境及其随时间的变化对应于两个基本但异构的信息类型:语义和运动。先前的端到端自动驾驶工作在单个特征向量中表示这两种类型的信息。然而,预测和规划等运动任务总是会降低检测和跟踪性能,这种现象在多任务学习中被称为负迁移。为了解决这个问题,本文提出了神经贝叶斯运动解码,这是一种新的并行检测、跟踪和预测方法,它分离了语义学习和运动学习,这类似于贝叶斯滤波器。具体而言,本文采用了一组与检测和跟踪查询并行运行的学习运动查询,共享一组统一的递归更新的参考点。

2025-03-09 19:27:09 684

原创 碰撞率降低57.4%!VLM-AD显著提升自动驾驶规划准确性,无需VLM实时推理

端到端自动驾驶(AD)将感知、预测和规划整合到一个框架中,旨在协调检测、跟踪等复杂任务。近期方法通过传感器数据生成自我轨迹,但面对复杂场景时性能下降。人类驾驶员通过推理环境有效应对挑战,而现有模型依赖于轨迹点序列监督,缺乏推理信息。手动标注推理信息成本高且耗时,难以获得高质量标注。大型基础模型如视觉-语言模型(VLMs)提供了替代方案,增强了驾驶系统的推理能力。然而,直接整合这些模型需要大量微调,并增加训练和推理时间,使其不适用于实际应用。

2025-03-09 19:23:08 995

原创 从仿真到实车!同济大学:TeLL-Drive如何用多视角验证解决路口决策“博弈”难题?

在过去十年中,自动驾驶技术取得了显著进展,正在成为一股有望彻底改变交通运输领域的变革力量。自动驾驶汽车通过提升安全性、减少交通拥堵以及提高出行便利性,正在重新定义现代交通的格局。自动驾驶系统的核心在于其实时复杂决策能力,这种决策能力需要能够与甚至超越人类驾驶员的水平。要实现如此复杂的决策过程,需要整合先进的人工智能方法,使系统能够感知、理解并对动态且往往不可预测的驾驶环境做出响应。深度强化学习(DRL)已经成为自动驾驶系统决策的关键框架。在自动驾驶领域,DRL被用于开发车辆行为策略,例如路口导航等场景。

2025-03-06 18:05:15 652

原创 机器人“家教”时代降临!NVIDIA黑科技让机器看视频自学跨域操作

HAMSTER 研究了分层 VLA 模型的潜力,在机器人操作中实现了强大的泛化能力。该模型包括一个经过微调的 VLM,能够准确预测机器人操作的 2D 路径,以及一个低级策略,该策略学习使用 2D 路径生成动作。这种两步架构实现了跨显著域变化的视觉泛化和语义推理,同时使得数据高效的专业策略(如基于 3D 输入的策略)能够执行低级动作。这项工作代表了开发多功能、分层 VLA 方法的第一步,未来有众多改进和扩展的机会。目前提出的工作仅在 2D 空间中生成点,而没有进行原生的 3D 预测。

2025-03-06 16:42:40 971

原创 分割性能超SOTA 6.2%!最新多模态地图构建BEV特征融合网络MapFusion

导读自动驾驶系统包括感知、预测、决策、规划等不同的功能模块。对于其中的自动驾驶规划模块而言,要想实现准确安全的路径规划,就需要利用自动驾驶车辆上配置的传感器采集周围的环境信息构建地图。图1展示了高精地图(HD Map)与地图分割(Map Segmentation)两类地图构建任务示意图。©️【深蓝AI】编译论文标题:MapFusion: A Novel BEV Feature Fusion Network for Multi-modal Map Construction。

2025-03-06 16:41:45 494

原创 港科大&华为诺亚发布Occ-LLM:大模型赋能自动驾驶,空间感知能力飞跃

港科大&华为诺亚方舟提出Occ-LLM,结合大语言模型与占用网络,显著提升自动驾驶空间感知与决策能力。

2025-03-03 10:13:08 1085

原创 ICRA顶会 | 当无人机遇上扩散模型:如何让四旋翼飞行器在复杂环境中「稳如泰山」?

DroneDiffusion的突破不仅在于技术层面,更展示了一种跨学科思维范式:当控制理论面对现实世界的混沌,生成式AI的“想象力”或许正是解码不确定性的钥匙。这种以扩散模型为桥梁,连接数据驱动学习与经典控制理论的方法,为机器人、自动驾驶等领域带来了普适性框架。或许在不远的未来,所有需要在混沌现实世界中自主行动的智能体,都将携带一枚“扩散核心”——以生成之能,驯服无常。编译|麻哈情节审核|apr%24u%24%24z%24。

2025-03-03 10:12:50 1202

原创 512台无人机!GCBF+如何实现大规模多智能体动态避障的?

GCBF+:多机安全无上限

2025-02-27 18:50:57 1346

原创 DILLEMA:扩散模型+大语言模型,多模态数据增强框架

DILLEMA 通过结合字幕生成、LLM 驱动的假设性生成和可控扩散模型,可以有效地揭示模型的弱点并提高模型鲁棒性。未来的工作将与其他基线进行比较,并探索生成测试数据集的优先级排序。DILLEMA 的提出为深度学习模型的测试和鲁棒性提升提供了一种新的思路,有望在自动驾驶、医疗影像等领域发挥重要作用。

2025-02-27 18:43:53 1129

原创 最新突破!浙大&华为:PanopticRecon++实现机器人端到端全景重建

基于二维视觉语言模型的开放世界的分割重建因其在Real-to-Sim起到重要作用而受到机器人领域的广泛关注。然而,现有方法受限于对场景空间几何理解的缺乏和分阶段方法的误差累积,限制了其在复杂环境中的分割精度的提升。针对这一问题,浙江大学熊蓉、王越团队与华为云具身智能实验室共同提出一种名为PanopticRecon++的分割重建新范式,通过交叉注意力机制联合三维空间先验与语义分割特征,实现端到端的开放词汇全景重建。©️【深蓝AI】编译本文由paper一作——Xuan Yu 授权【深蓝AI】编译发布!

2025-02-27 18:42:11 877

原创 1B小模型完胜405B巨无霸!上海AILab新突破

小模型靠「过程监督」逆袭大模型性能边界

2025-02-23 17:12:30 975

原创 MoBA vs NSA:DeepSeek和Kimi的首次PK

DeepSeek最近的爆火盖过了之前所有大模型创业明星公司的风头,Kimi这个报告算是第一个正面迎接DeepSeek挑战的工作。尽管DeepSeek的模型十分强大,但它仍然是一个局限于文本模态的LLM。多模态领域(语音,图像,甚至视频模态)的DeepSeek R1 Zero还暂未浮出水面,期待DeepSeek这一波浪潮能够给我们带来更强大的图像大模型,语音大模型,视觉大模型等,希望未来能够看到大模型领域进一步百花齐放,百家争鸣的景象。

2025-02-22 18:22:36 907

原创 DeepSeek又出新成果:用代码也能培养模型的推理能力?

研究人员提出了CODEI/O方法,通过训练大型语言模型以纯自然语言思维链(CoT)的形式预测代码输入和输出来增强其推理能力。该方法利用代码的结构化与可扩展特性,能够学习符号推理、逻辑推理、数学推理和常识推理等多样化推理模式。大量实验表明,CODEI/O及其增强版本CODEI/O++在各项基准测试中均显著优于现有基线方法,且未在任何领域出现性能下降,实现了跨领域的均衡性能提升,充分证明了该方法的鲁棒性与通用性。编译|Famcous。

2025-02-21 17:54:26 834

原创 LLM增强的RLHF框架,用多模态人类反馈提升自动驾驶安全性!

融合多模态人类生理数据与强化学习,提升自动驾驶安全性与人机协同能力。

2025-02-19 16:57:14 1130

一个半月吐血整理,各大厂500+求职者分享,1000+面试真题及经验收

真题题库、行业交流群已准备就绪! 大家三连后,评论区留言获取!

2022-09-16

俞刚-物体检测的过去、现在和未来.pdf

物体检测是计算机视觉的基础环节,对于很多计算机视觉任务的落地和研究都有非常重要的意义。本次分享主要从物体检测的问题切入,讨论物体检测的发展历程,从传统视觉年代,到深度学习时代的变革,到未来的发展趋势。也会分析工业界的落地发展历程,从传统时代的人脸检测到通用的物体检测。

2020-09-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除