ETPNav: 用于视觉语言导航的开源框架
ETPNav(Evolutionary Topological Planning for Vision-Language Navigation)是一个面向连续环境视觉语言导航的开源项目。该项目基于Python语言,结合了深度学习技术和拓扑规划方法,旨在提高机器在复杂环境中的导航能力。
项目基础介绍
ETPNav项目是[TPAMI 2024]官方库,它提出了一种新的导航框架,通过自我组织预测的航点进行在线拓扑映射,无需事先的环境经验。框架的核心是一个基于变压器的跨模态规划器,用于根据拓扑地图和指令生成导航计划。项目的目标是使导航代理能够分解导航过程为高级规划和低级控制,并通过障碍物避免控制器实施计划。
核心功能
- 在线拓扑映射:ETPNav能够实时地对环境进行拓扑映射,生成长距离导航计划。
- 跨模态规划:利用基于变压器的规划器,根据拓扑地图和语言指令生成导航路径。
- 障碍物避免控制:采用试错启发式方法,避免在导航过程中遇到障碍物导致停滞。
- 性能提升:实验结果显示,ETPNav在R2R-CE和RxR-CE数据集上相较于先前技术有超过10%和20%的性能提升。
最近更新的功能
项目最近的更新主要集中在以下方面:
- 代码优化:对现有代码进行优化,以提高运行效率和可维护性。
- 文档完善:更新项目文档,为用户提供了更详细的安装和使用指南。
- 数据集支持:增加了对更多数据集的支持,包括R2R-CE和RxR-CE数据集。
- 训练和评估脚本:改进了训练和评估的bash脚本,使得多GPU训练更加便捷。
ETPNav项目不断迭代更新,致力于提供更加高效和稳定的视觉语言导航解决方案,对于有相关研究需求的开发者和研究者来说,这是一个非常有价值的开源项目。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考