点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
本次分享我们邀请到了悉尼科技大学,澳大利亚人工智能中心ReLER实验室博士Mingfei Han,为大家详细介绍他的工作。如果您有相关工作需要分享,欢迎文末联系我们。

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation
论文:https://arxiv.org/pdf/2412.08591
主页:https://roomtour3d.github.io/
直播信息
时间
2025年3月20日(周四)19:00
主题
CVPR'25全开源|机器人导航 Learn from RoomTour!视觉语言导航的全能涨点选手
直播平台
3D视觉工坊哔哩哔哩
扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播
主讲嘉宾

Mingfei Han
悉尼科技大学,澳大利亚人工智能中心 ReLER 实验室博士,导师为 Prof. Xiaojun Chang;穆罕默德·本·扎耶德人工智能大学访问学生,合作指导为 A/Prof. Xiaodan Liang。在CVPR, ICCV, ICLR等顶级会议或期刊发表论文十余篇, 研究方向为多模态视频理解与视频驱动的具身智能系统。
个人主页:https://mingfei.info/
直播大纲
RoomTour3D 是基于真实房间导览视频构建的几何感知视频-指令数据集,极大扩展了视觉-语言导航(VLN)的数据规模和场景多样性。其结合3D重建、开世界导航指令生成,提供10万+开放轨迹标注与丰富的房间、深度图与开放词表物体信息。实验表明RoomTour3D可以同时在多个VLN benchmark大幅提升任务性能,并推动零样本导航能力。欢迎探索RoomTour3D,助力机器人迈向更智能的自主导航! 🚀🔍
背景介绍
RoomTour3D Overview
Geometry into Video-Instruction data
实验结果展示与分析
总结
参与方式

注:本次分享我们邀请到了悉尼科技大学,澳大利亚人工智能中心ReLER实验室博士Mingfei Han,为大家详细介绍他的工作。如果您有相关工作需要分享,欢迎联系:cv3d008。