【文献阅读】VidLPRO: A Video-Language Pre-training Framework for Robotic and Laparoscopic...【GenSurg+数据集】

Toky丶

已于 2025-04-24 11:33:51 修改

阅读量565

点赞数 18

文章标签：人工智能

于 2025-04-24 10:30:48 首次发布

本文链接：https://blog.csdn.net/Toky_min/article/details/147463144

版权

2025年4月24日未找到代码和数据集

NeurIPS 2024 Workshop

VidLPRO: 机器人和腹腔镜手术视频语言框架

发表于2024年9月7日

斯坦福大学
直观外科公司

我们介绍 VidLPRO，这是一种专为机器人和腹腔镜手术设计的新型视频 - 语言（VL）预训练框架。现有的手术视频 - 语言模型主要依赖对比学习，而我们提出了一种更全面的方法来捕捉复杂的时间动态，并使视频与语言对齐。VidLPRO 集成了视频 - 文本对比学习、视频 - 文本匹配和掩码语言建模目标，以学习丰富的视频 - 语言表示。

为了支持这个框架，我们提出了 GenSurg+，这是一个从 GenSurgery 精心策划的数据集，包含 17,000 个手术视频片段，以及由 GPT - 4 使用 Whisper 模型提取的转录本生成的字幕。

这个数据集满足了手术领域对大规模、高质量视频 - 语言数据的需求。在包括 Cholec80 和 AutoLaparo 在内的基准数据集上进行的大量实验证明了我们方法的有效性。VidLPRO 在零样本手术阶段识别中达到了最先进的性能，显著优于现有的手术视频 - 语言模型，如 SurgVLP 和 HecVL。

我们的模型在准确率上提高了 21.5%，在 F1 分数上提高了 15.7%，为该领域设定了新的基准。值得注意的是，VidLPRO 即使在单帧推理时也表现出强大的性能，并且能够随着时间上下文的增加有效地扩展。

消融研究揭示了帧采样策略对模型性能和计算效率的影响。这些结果强调了 VidLPRO 作为手术视频理解基础模型的潜力。

1 引言

近年来，由于医疗保健领域对人工智能（AI）应用的需求不断增长，手术计算机视觉领域取得了显著进展。大量的研究推动了深度学习模型的发展，这些模型能够实现手术工作流程识别 [1, 2, 3]、增强手术场景理解 [4, 5, 6] 和重建 [7, 8, 9]。

随着手术程序变得越来越复杂和技术驱动，对能够在整个手术过程中为外科医生提供支持的智能系统的需求变得越来越迫切，从术前规划到术中指导再到术后分析 [10]，这对于改善患者预后、简化工作流程和提高整体手术效率至关重要 [11, 12]。

尽管有这些有前景的应用，但在手术领域开发和实施这些系统面临着一些挑战。主要挑战之一是手术程序固有的复杂性和可变性。与许多标准化的视频数据集不同，手术视频捕捉的是高度动态的环境，其中的视觉内容会因具体手术、患者解剖结构、外科医生技术和意外并发症而显著不同 [13, 14]。这种可变性使得开发能够在不同手术场景中泛化的强大模型变得困难。另一个重大挑战是大规模标注手术数据集的稀缺性。

与其他领域相比，在手术领域中数据收集和标注更加困难，手术数据受到严格的隐私法规限制，并且需要专家标注，这既耗时又昂贵 [11, 15]。这一限制阻碍了数据驱动的深度学习模型的发展，因此需要创新方法来有效利用有限的标注数据。

手术程序的持续时间较长也是一个独特的挑战。手术视频通常持续数小时，这要求模型能够捕捉和处理长距离的时间依赖关系 [10]。这与许多一般的视频理解任务形成鲜明对比，后者通常处理的是仅持续几秒或几分钟的短视频片段。

此外，解读手术视频需要专业的医学知识，这使得直接将通用视频理解模型应用于手术任务具有挑战性 [12]。

最后，手术动作的精细性质以及区分手术不同阶段或步骤的微妙视觉线索增加了另一层复杂性。模型必须能够检测和解释手术视野中微小但关键的细节，而这些细节往往存在遮挡、反射和快速的相机移动 [16, 17]。

最近，多模态学习在计算机视觉领域应运而生，它整合了多种模态，如视觉数据、文本数据、音频、深度图等。具体来说，视觉语言预训练（VLP）利用大规模的配对视觉和自由形式文本数据，可以减少对标注数据集的依赖，实现更高效和有效的学习。

它使模型能够学习丰富且可泛化的表示，这些表示可以通过最小的微调适应各种下游任务，如图像 - 文本检索 [18, 19, 20]、视觉问答 [21, 22, 23, 24, 25]、视频理解 [26, 27, 28, 29, 30] 和零样本分类 [31, 32]。VLP 捕捉视觉内容和自然语言描述之间复杂关系的潜力使其在手术领域特别有吸引力，因为手术过程通常伴随着详细的文本报告或叙述。

最近的研究开始探索 VLP 技术在手术视频分析中的应用。值得注意的方法包括 SurgVLP [33]，它利用手术视频讲座及其转录本学习多模态表示；

以及 HecVL [34]，它提出了一种用于零样本手术阶段识别的分层预训练框架。虽然这些方法取得了有前景的结果，但它们仍然面临一些限制。

一个重大挑战是缺乏用于手术 VLP 的大规模、多样化数据集。GenSurgery 数据集 [35] 的引入是向前迈出的一步，它提供了大量的手术视频集合。

然而，这个数据集存在局限性，包括缺乏配对的文本数据、音频质量不一致以及存在无信息内容。我们的 GenSurg + 数据集通过严格过滤原始数据、添加高质量字幕并确保丰富的语言上下文来解决这些问题。

尽管取得了这一进展，现有的方法仍然在时间建模不足方面存在困难，无法有效地捕捉手术视频中的长距离依赖关系。许多当前的方法在应用于预训练期间未见过的新手术程序或任务时表现下降，这表明其泛化能力有限。

此外，如图 1 所示，大多数方法仅依赖视频 - 文本对比（VTC）学习，错过了其他预训练目标可能带来的好处，这些目标可以增强模型对手术内容和上下文的理解。解决这些限制对于推进手术 VLP 领域以及开发更强大、更通用的手术视频理解模型至关重要。

为了解决现有手术 VLP 方法的局限性，我们提出了 VidLPRO 和 GenSurg+，这是一个用于机器人和腹腔镜手术视频 - 语言基础模型的新颖框架和数据集。

VidLPRO 基于视频 - 语言预训练的最新进展构建，采用视觉 Transformer（ViT）作为视频编码器，BERT 作为文本编码器，以及一个多模态融合模块。我们的模型采用视频 - 文本对比学习（VTC）、视频 - 文本匹配（VTM）和掩码语言建模（MLM）目标的组合，以学习手术程序的细致、上下文感知表示，如图 1 所示。

我们还引入了 GenSurg+，它是 GenSurgery 数据集 [35] 的增强版本，包含 17,000 个 45 秒的内窥镜机器人手术视频片段，并配有使用原始叙述和 GPT - 4 生成的高质量字幕。在零样本手术阶段识别中，VidLPRO 在 Cholec80 [14] 和 AutoLaparo [36] 上均显著优于当前的最先进方法。

更具体地说，在 Cholec80 上，它达到了 57.1% 的准确率和 32.1% 的 F1 分数，分别比 HecVL 高出 15.4% 和 5.8%。我们的消融研究表明，VidLPRO 在不同的帧采样率下都具有稳健性，并且随着帧数的增加，性能能够有效提升。

这些结果突出了我们预训练方法的有效性、GenSurg + 的高质量以及 VidLPRO 在不同手术程序和任务中泛化的潜力，这对于为多样化的手术环境开发自适应 AI 系统至关重要。

图1当前方法（左）仅依赖视频 - 文本对比损失，而我们的方法（右）除了对比损失外，还采用视频 - 文本匹配损失和掩码语言建模来增强跨模态融合和手术语言理解。

2 Related Work

2.1 视觉-语言模型

大多数视觉-语言方法可以分为两类。第一类侧重于训练多模态编码器[37, 38, 39, 40, 41]，而第二类侧重于训练单模态视觉和文本编码器[31, 32, 42, 43]。在手术领域的背景下，Surgical-VQA[44]、SurgicalGPT[45]提出了用于视觉问答的视觉-语言模型。Surgical-LVLM[46]通过引入专门的视觉感知LoRA模块，对大型视觉-语言模型进行适配，以用于机器人手术中的基于场景的视觉问答。

2.2 手术视频-语言预训练

将视频-语言预训练（VLP）技术应用于手术领域是一项近期的发展，它为推进手术视频分析显示出巨大的潜力。这一新兴领域中两个值得注意的方法是SurgVLP[33]和HecVL[34]，它们在使VLP方法适应手术数据的独特挑战方面取得了重大进展。

SurgVLP[33]使用对比学习目标从手术视频讲座中学习多模态表示。该方法利用了一个包含大量手术视频及其转录音频的数据集，使用多个互补的自动语音识别（ASR）系统生成文本注释。

在此基础上，HecVL[34]提出了一种专门为零样本手术阶段识别设计的分层视频-语言预训练框架。

这种方法通过纳入分层文本监督来解决捕捉精细动作和高级手术概念的挑战。另一方面，VidLPRO引入了除单纯对比学习之外的多个预训练目标，以捕捉更丰富的多模态表示。

2.3 手术阶段识别

手术阶段识别旨在自动识别和分割手术过程的不同阶段。传统的手术阶段识别方法通常依赖手工制作的特征和经典机器学习技术[47, 2]。然而，随着深度学习的出现，研究方向转向了更复杂的模型，这些模型可以从原始视频数据中自动学习相关特征[13, 48]。

在此之后，许多单阶段方法[49, 50, 51]被提出用于学习时空特征。然而，单阶段方法无法捕捉长期的时空依赖关系。为了解决这一限制，提出了两阶段解决方案[52, 53, 54, 55]，该方案首先使用特征提取器提取空间或时空特征，然后在这些特征之上使用时间模型来学习长期依赖关系。

时间模型通常分为三类：递归神经网络（RNNs）[56]、时间卷积网络（TCNs）[52, 57]和Transformer[58]。

3 Method

3.1 GenSurg+

为了实现对机器人和腹腔镜手术有效的视频-语言预训练，我们引入了GenSurg+，这是一个大规模的手术视频数据集，配有描述性字幕。GenSurg+基于GenSurgery数据集[35]构建，GenSurgery最初作为最大的公开可用的普通外科手术视频数据集被引入。

3.2 数据集创建流程

我们从原始的GenSurgery数据集开始，该数据集包含3,100个视频，涵盖28种不同的手术程序，总时长为680小时。我们的数据集创建流程包括几个关键步骤，以优化和扩充这个初始语料库：

1. 音频过滤：我们首先过滤掉了1,300个没有音频内容的视频，因为音频对于生成有意义的文本描述至关重要。

2. 转录提取：对于剩下的1,800个有音频的视频，我们使用Whisper模型[59]提取语音转录。这一步是必要的，因为许多视频由于其年代久远，缺乏可靠的YouTube自动字幕。

3. 视频分割和过滤：我们将视频分割成45秒的片段，大约产生了18,000个单独的片段。为了确保数据集的质量和相关性，我们根据语言标准进一步过滤这些片段。具体来说，我们删除了大约1,000个包含太少独特单词或高度重复内容的片段。这一步有助于消除无声片段和包含无信息音频（例如背景音乐或噪音）的部分。

4. 字幕生成：对于剩下的17,000个高质量视频片段，我们使用GPT-4语言模型[60]生成描述性字幕。我们精心设计了一个专门的提示，以确保字幕简洁、信息丰富，并针对手术领域进行定制。提示内容见附录。GenSurg+创建的完整流程如图2所示。

图2 GenSurg+数据集创建流程概述。

表1 GenSurg+和SVL-Pretrain数据集的比较

3.3 数据集统计和特征

最终的GenSurg+数据集包含17,000个45秒的视频片段，总时长为213小时的高质量手术内容，并配有描述性字幕。

如表1所示，这使得GenSurg+成为最大的公开可用的专门为手术视频-语言预训练设计的数据集，为该领域的研究提供了重要资源。

GenSurg+在实现对机器人和腹腔镜手术的大规模视频-语言预训练方面迈出了重要一步。通过弥合手术领域中视觉内容和描述性文本之间的差距，这个数据集为在手术辅助和分析中开发更先进、更通用的AI模型奠定了基础。

图3 VidLPRO模型架构和配置概述。该模型采用视觉Transformer（ViT）作为视频编码器，BERT作为文本编码器。多模态融合模块整合视觉和文本表示，而视频-文本对比学习（VTC）、视频-文本匹配（VTM）和掩码语言建模（MLM）等预训练目标确保了对多模态表示的全面学习。

3.4 VidLPRO

VidLPRO框架基于视频-语言预训练的综合框架中的最佳实践构建，并针对手术视频分析的特定需求进行了调整。

1. 模型架构：我们的VidLPRO模型由三个主要组件组成：视频编码器（VE）、文本编码器（TE）和多模态融合模块（MFM）。该架构旨在处理视频片段及其相关的文本描述，为各种下游任务创建联合表示。

视频编码器（VE）：我们采用标准的视觉Transformer，具体为ViT-B/16[61]，作为我们的视频编码器。受TimeSformer[62]启发，ViT模型通过划分时空注意力机制进行了增强，以有效地捕捉手术视频的时间动态。

这一选择使模型能够同时处理多个帧，并提取对于理解手术过程至关重要的时空特征。给定一个包含\(T\)帧的视频片段\(C = \{f_{1}, f_{2},..., f_{T}\}\)，视频编码器处理这些帧以生成视频特征\(V = \{v_{1}, v_{2},..., v_{T}\}\)：
\[\begin{align}
u_{t}&=P(f_{t}) \tag{1}\\
V&=VE(\{u_{t}+p_{t}^{v}\}_{t = 1}^{T}) \tag{2}
\end{align}\]
这里，\(P(·)\)是线性投影，\(p_{t}^{v}\)是可学习的位置嵌入，用于编码空间和时间信息。ViT编码器使用BEiT[63]权重进行初始化。

文本编码器（TE）：对于文本编码器，我们利用BERT[64]，这是一个强大且广泛用于自然语言处理的Transformer模型。BERT负责编码手术视频的文本描述，如转录本和字幕。对于给定的包含\(L\)个标记的文本描述\(D = \{w_{1}, w_{2},..., w_{L}\}\)，文本编码器产生词嵌入\(W = \{e_{1}, e_{2},..., e_{L}\}\)：
\[W = TE(D) \tag{3}\]

BERT编码器使用BERTbase[64]权重进行初始化。

多模态融合模块（MFM）：多模态融合模块整合视觉和文本表示。我们采用视频到文本（V2T）多模态融合方案，该方案使用跨注意力将视频线索注入文本特征。MFM将视频特征\(V\)和词嵌入\(W\)作为输入，并执行跨模态融合以生成联合视频-语言表示\(H\)：
\[H = MFM([V + p^{v}, [CLS], W + p^{w}])\]

其中\(p^{v}\)和\(p^{w}\)分别是视频和文本的位置嵌入，\([CLS]\)是用于分类任务的特殊标记。输出\(H\)可以分为\(H = [H^{v}, h^{c}, H^{w}]\)，分别对应视频、全局和文本表示。

遵循先前的工作[65, 66, 67]，我们重用文本编码器，并在文本编码器的最后几层中集成跨注意力操作，将其置于自注意力和多层感知器（MLP）之间。

2. 预训练目标：我们采用三个预训练目标来学习强大的多模态表示：

视频-文本对比学习（VTC）：VTC目标是在共享嵌入空间中对齐视觉和文本表示。对于一批\(N\)个视频-文本对，我们计算：
\[\mathcal{L}_{VTC}=(\mathcal{L}_{v2t}+\mathcal{L}_{t2v})/2 \tag{5}\]
其中
\[\mathcal{L}_{v2t}=-\frac{1}{N}\sum_{i = 1}^{N}\log\frac{\exp(sim(g_{i}^{v}, g_{i}^{w})/\tau)}{\sum_{j = 1}^{N}\exp(sim(g_{i}^{v}, g_{j}^{w})/\tau)}\]
\[\mathcal{L}_{t2v}=-\frac{1}{N}\sum_{i = 1}^{N}\log\frac{\exp(sim(g_{i}^{w}, g_{i}^{v})/\tau)}{\sum_{j = 1}^{N}\exp(sim(g_{i}^{w}, g_{j}^{v})/\tau)}\]
这里，\(g^{v}\)和\(g^{w}\)是通过对[CLS]标记表示应用投影层得到的全局视频和文本特征，\(sim(·,·)\)是余弦相似度，\(\tau\)是温度参数。

视频-文本匹配（VTM）：VTM目标通过学习区分匹配和不匹配的视频-文本对来增强跨模态融合。对于每个视频片段\(c\)，我们考虑其匹配描述\(D_{pos}\)和随机采样的不匹配描述\(D_{neg}\)。我们计算：
\[\begin{align}
s_{pos}&=Q(h_{pos}^{c})\\
s_{neg}&=Q(h_{neg}^{c}) \tag{8}
\end{align}\]
\[\mathcal{L}_{VTM}=-\mathbb{E}[\log(\sigma(s_{pos}))+\log(1-\sigma(s_{neg}))]\]
其中\(Q(·)\)是线性层，\(h^{c}\)是[CLS]标记表示，\(\sigma(·)\)是sigmoid函数。

掩码语言建模（MLM）：MLM目标增强了模型对手术术语的理解。我们随机掩码\(D\)中50%的输入标记，创建掩码版本\(\bar{D}\)。然后模型预测原始标记：
\[w_{i}' = R(h_{\tilde{w}_{i}}^{w}) \tag{10}\]
\[\mathcal{L}_{MLM}=-\mathbb{E}[\frac{1}{|\mathcal{M}|}\sum_{i\in\mathcal{M}}\log P(w_{i}|w_{i}')]\]

其中\(R(·)\)是线性层，\(\mathcal{M}\)是掩码标记索引的集合，\(P(w_{i}|w_{i}')\)是给定模型预测时正确标记的概率。

VidLPRO的完整预训练目标是：
\[\mathcal{L}=\lambda_{1}\mathcal{L}_{VTC}+\lambda_{2}\mathcal{L}_{VTM}+\lambda_{3}\mathcal{L}_{MLM}\]

4 Experiments

为评估作者VidLPRO框架的有效性，作者在零样本手术阶段识别任务上进行了广泛的实验。

作者选择这个任务，因为它代表了视频语言模型在手术领域的具有挑战性和临床相关应用。作者的实验旨在评估VidLPRO学习到的表示在不同的数据集和手术程序中的泛化和鲁棒性。

Pretraining Setup

作者预训练VidLPRO在GenSurg+数据集上。对于每个45秒的剪辑，作者采样4帧以捕捉时间信息，同时保持计算效率。与多阶段的课程预训练方法不同，作者采用单阶段预训练协议，这简化了训练过程并导致了更高效的學習。视频编码器和文本编码器分别使用BEiT [63]和BERTbase [64]权重初始化。

预训练使用4块NVIDIA A100 GPU，并根据在Cholec80数据集子集上的评估 selecting the best pre-training checkpoint。表2中可以找到更多实现细节。

Zero-Shot Surgical Phase Recognition

为评估VidLPRO的零样本学习能力，作者关注了两个广泛使用的手术阶段识别数据集：Cholec80 [14] 和 AutoLaparo [36]。这些数据集代表了不同的手术过程，并为作者的模型提供了全面的泛化能力测试。

Cholec80 [14]包括80个胆囊切除手术过程的视频，共标注了7个手术阶段。AutoLaparo [36]包含21个腹腔镜子宫切除手术的视频，分为7个阶段。

为了确保与前期工作的公平比较，作者将SurgVLP [33]和HeeVL [34]中使用的类提示进行了调整，使其更好地与作者的基于提示的预训练方法对齐。作者使用GPT-4将类提示转化为类似的提示，使用与生成作者预训练标题相同的提示模板。

这个过程确保了评估类提示与作者的预训练数据风格和内容相匹配，同时保持了每个手术阶段的必要信息。Cholec80和AutoLapro数据集使用的类似类提示可以在附录中找到。

作者将两个数据集的视频分割成45秒的片段，每个片段包含一个手术过程。然后作者每个片段采样4张图片，与作者的预训练设置相同。

对于零样本分类，作者使用预训练的文本编码器来提取类提示的表示，使用视频编码器来获取视频片段的表示。

分类是通过测量类提示表示和视频片段表示之间的余弦相似性来实现的，并将每个片段分配给具有最高相似分数的类。

Results and Comparison

作者将VidLPRO与几个 Baseline 进行了比较，包括SurgVLP [33]，HecVL [34]，以及HecVL [34]中报道的一些通用领域模型，例如CLIP [31]和MIL-NCE [68]。表3总结了VidLPRO在Cholec80和AutoLaparo数据集上的结果。

结果表明，VidLPRO在这两个数据集上都达到了最先进的零样本性能，显著优于以前的手术VLP方法。值得注意的是，在传统计算机视觉数据集上预训练的通用领域模型CLIP和MIL-NCE在这些外科任务上的表现不佳。

VidLPRO在两个不同数据集和不同外科程序（例如胆囊切除术和子宫切除术）上的强大零样本性能，展示了由作者模型学习的视频语言表示的泛化能力。这强调了针对特定领域进行外科术前预训练的重要性，并突显了VidLPRO作为手术视频理解的基础模型具有巨大的潜力。

Ablation Study on Number of Frames

为了更深入地理解VidLPRO设计选择的影响，作者对推理过程中每段使用的帧数进行了消融研究。这些实验旨在在零样本手术阶段识别和权衡性能和计算效率之间的最优配置。

作者在推理时评估了VidLPRO的性能，使用的帧数为1，4，8，16，32和45帧。这一范围使作者能够理解模型性能如何随时间信息增加而扩展。表4展示了这些实验在Cholec80和AutoLaparo数据集上的结果。

实验结果表明，在推理过程中增加帧数通常会导致性能提升。这是预期的，因为更多的帧提供了手术过程更丰富的表示，从而允许更精确的相位识别。当作者增加采样帧数时，性能仍然 improved。当采样45帧时，改善的余地变大，说明VidLPRO可以有效地利用现有时间上下文。然而，性能提升伴随着增加计算成本。

在考虑这些权衡后，作者推荐将推理过程中使用4帧作为一个平衡配置在大多数应用中。使用4帧，VidLPRO仍然显著优于以前的最先进方法，同时保持合理的计算需求。值得注意的是，在使用推理过程中只使用单一帧的情况下，VidLPRO仍然实现了最先进性能，突显了预训练表示的鲁棒性。

5 Conclusion

本文提出了VidLPRO，一种新的视频-语言预训练框架，用于手术视频，该框架首先将单模态视频和语言表示进行对齐，然后使用多模态模块进行融合。作者的方法旨在解决现有手术VL预训练方法中多模态表示匮乏的问题，这些方法仅依赖对比学习。

通过将视频-文本对比学习、视频-文本匹配和 Mask 语言建模作为预训练目标，作者的模型更有效地捕获了复杂的时序动态并使视频与语言对齐。

此外，为了预训练VidLPRO，作者引入了GenSurg+，这是通过使用生成式文本GPT-4生成的17k对配对的GenSurgery的扩展版本，基于原始叙述生成的字幕。在两个基准数据集上的实验结果证明了作者的方法在零样本阶段识别任务中的性能优于最先进的方法。

此外，作者对推理帧插值的消融研究揭示了VidLPRO的鲁棒性和可扩展性，即使使用单帧输入也能实现优越的性能。这种灵活性使得在保持高精度的条件下适应各种计算约束成为可能。

最后，这些结果为更先进的AI辅助手术系统奠定了基础，这些系统可以根据各种手术适应不同的程序，需要进行最少的任务特定训练，从而在性能和效率之间实现关键平衡，以实现实时的外科应用。

参考

[1].VidLPRO: A Video-Language Pre-training Framework for Robotic and Laparoscopic Surgery.