arXiv-2024 | 指令生成VS导航决策！左右互搏！SRDF：基于自我精炼数据飞轮的语言引导式导航学习

本文链接：https://blog.csdn.net/weixin_37990186/article/details/144681971

作者：Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang
单位：上海人工智能实验室，北卡罗来纳大学教堂山分校，Adobe Research，南京大学
论文链接：BOOTSTRAPPING LANGUAGE-GUIDED NAVIGATION LEARNING WITH SELF-REFINING DATA FLYWHEEL（https://arxiv.org/pdf/2412.08467）
代码链接：https://github.com/wz0919/VLN-SRDF

主要贡献

提出了一种全自动的自精炼数据飞轮（SRDF）框架，通过导航器和指令生成器的迭代协作，自动评估和改进生成的指令数据质量。
通过多轮迭代，生成了高质量的视觉语言导航（VLN）数据集，显著提升了数据集的多样性和指令质量。
整个过程无需人工干预，实现了从数据生成到模型训练的完全自动化。
在多个VLN基准测试中，该方法显著超越了现有的最先进方法，特别是在R2R测试集上，首次超越了人类性能（78% SPL）。

研究背景

研究问题

视觉语言导航（VLN）经常使用数据增强的方法生成额外的指令。

现有的合成数据质量较低，尤其是在语言保真度方面，这对训练有效的导航智能体构成了挑战。

论文主要解决的问题是创建高质量的数据以训练鲁棒的语言引导导航智能体。

研究难点

该问题的研究难点包括：

高质量的指令生成需要大量的高质量训练数据，而现有的标注数据非常有限；
手动校正指令资源密集且成本高昂；
传统的评估指标难以准确评估指令-轨迹对的对齐。

研究方法

论文提出了一种自我精炼数据飞轮（Self-Refining Data Flywheel, SRDF）用于解决视觉语言导航中的数据质量问题。

主要组件：
- 导航器（Navigator, N）：用于评估生成的数据质量。
- 指令生成器（Instruction Generator, G）：用于生成新的训练数据。
初始资源：
- 种子数据（）：通常为人工标注的数据，用于训练基础的导航器和指令生成器。
- 未标记轨迹池（）：从大规模环境数据集中收集的未标记轨迹，用于生成新的训练数据。
训练基础指令生成器：
- 使用种子数据训练一个基础的指令生成器（G1），该生成器能够理解多图像输入和交错图像文本输入。
生成基础训练数据：
- 使用G1从生成两种数据：一种用于训练导航器（），另一种用于改进下一轮的指令生成器（）。
训练基础导航器：
- 使用训练导航器（N1），该导航器将用于评估生成的数据质量。
评估和过滤生成的数据：
- 使用训练好的导航器N1对生成的数据进行自我评估，计算轨迹相似性得分，并过滤出高质量数据（和）。
迭代自精炼：
- 在每一轮迭代中，使用高质量的过滤数据训练生成器（Gt），然后使用Gt生成新的导航训练数据和生成器训练数据。接着，使用这些数据训练导航器（Nt），并再次过滤高质量数据。这个过程不断重复，以提高数据质量和模型性能。
最终数据集：
- 经过多轮迭代后，生成最终的SRDF-20M数据集，包含2000万个预训练示例和2000万条指令。

实验设计

数据收集

实验基于R2R数据集，包含14,039条人类标注的训练数据和178,270条未标注的轨迹。此外，还使用了MP3D和HM3D环境中的大量未标注轨迹。

实验设置

实验在多个下游任务上进行，包括：

细粒度视觉语言导航（R2R）、
具有对话历史的视觉语言导航（CVDN）、
高层次视觉语言导航（REVERIE、SOON）、
长期视觉语言导航（R4R）、
以及在连续环境中的视觉语言导航（R2R-CE）。

评估指标

使用成功率（SR）、路径长度加权成功（SPL）、目标进度（GP）、导航误差（NE）、归一化动态时间弯曲（nDTW）和动态时间规整加权成功率（sDTW）等指标。

结果与分析

飞轮机制分析

导航器和指令生成器的相互提升：
- 每一轮迭代中，导航器使用前一轮生成的指令来过滤数据，从而训练出一个更好的指令生成器。
- 改进后的指令生成器再生成新的导航训练数据和生成器训练数据，用于下一轮迭代。
- 这种迭代过程使得导航器和指令生成器的性能不断提升。
性能提升的具体数据：
- 在第一轮迭代中，新的指令生成器显著提升了导航器的成功率（SR）和路径遵循率（SPL）。
- 随着迭代轮次的增加，导航器的导航误差（NE）逐渐降低，成功率和SPL持续提高。
- 指令生成器的语言质量指标（如SPICE、BLEU-1、CIDEr等）也在每一轮迭代中得到改善。
数据过滤的有效性：
- 使用导航器过滤数据的方法被证明比传统的CLIP分数等方法更有效，能够更好地捕捉路径和指令之间的相似性。
指令多样性的影响：

增加每条路径的指令数量（指令多样性）对导航器的性能有积极影响，尤其是在指令质量较高的情况下。

额外数据的加入：

在指令生成器的训练中加入高质量数据显著提升了生成器的性能，表明高质量数据在生成器训练中的重要性。

与SOTA比较

R2R和R2R-CE：
- 在R2R数据集上，SRDF方法在测试集上将SPL（Success Rate Weighted by Path Length）从70%提高到78%，首次超越人类表现（76%）。
- 在R2R-CE数据集上，SRDF方法在没有使用渲染图像的情况下，相比ETPNav方法实现了8%的绝对增益。

REVERIE和SOON：
- 在REVERIE和SOON数据集上，SRDF方法分别提高了3.5%和10.0%的SPL，显示出其在细粒度指令跟随和高层次导航任务上的优势。
CVDN：
- 在CVDN数据集上，SRDF方法在验证未见集上提高了1.51米的导航误差，表明其在不同指令风格上的泛化能力。
RxR-English和R4R：
- 在RxR-English和R4R数据集上，SRDF方法在验证未见集上分别取得了显著的SPL和SR（Success Rate）提升，特别是在长距离导航任务中表现出色。
R2R指令生成：