CVPR‘25 全开源 | 机器人导航 Learn from RoomTour! 视觉语言导航的全能涨点选手

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

本次分享我们邀请到了悉尼科技大学,澳大利亚人工智能中心ReLER实验室博士Mingfei Han,为大家详细介绍他的工作。如果您有相关工作需要分享,欢迎文末联系我们。

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation
论文https://arxiv.org/pdf/2412.08591
主页https://roomtour3d.github.io/

直播信息

时间

2025年3月20日(周四)19:00

主题

CVPR'25全开源|机器人导航 Learn from RoomTour!视觉语言导航的全能涨点选手

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

Mingfei Han

悉尼科技大学,澳大利亚人工智能中心 ReLER 实验室博士,导师为 Prof. Xiaojun Chang;穆罕默德·本·扎耶德人工智能大学访问学生,合作指导为 A/Prof. Xiaodan Liang。在CVPR, ICCV, ICLR等顶级会议或期刊发表论文十余篇, 研究方向为多模态视频理解与视频驱动的具身智能系统。

个人主页https://mingfei.info/

直播大纲

RoomTour3D 是基于真实房间导览视频构建的几何感知视频-指令数据集,极大扩展了视觉-语言导航(VLN)的数据规模和场景多样性。其结合3D重建、开世界导航指令生成,提供10万+开放轨迹标注与丰富的房间、深度图与开放词表物体信息。实验表明RoomTour3D可以同时在多个VLN benchmark大幅提升任务性能,并推动零样本导航能力。欢迎探索RoomTour3D,助力机器人迈向更智能的自主导航! 🚀🔍

  1. 背景介绍

  2. RoomTour3D Overview

  3. Geometry into Video-Instruction data

  4. 实验结果展示与分析

  5. 总结

参与方式

:本次分享我们邀请到了悉尼科技大学,澳大利亚人工智能中心ReLER实验室博士Mingfei Han,为大家详细介绍他的工作。如果您有相关工作需要分享,欢迎联系:cv3d008。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值