TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation

yyu77_

已于 2023-05-30 20:10:06 修改

阅读量344

点赞数

分类专栏：手语识别文章标签：计算机视觉 python 图像处理

于 2023-05-25 16:27:11 首次发布

本文链接：https://blog.csdn.net/qq_43488136/article/details/130865797

版权

手语识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

3.2.4 局部和非局部视频语义的联合学习

基于时态语义金字塔的手语翻译层次特征学习

摘要

手语翻译(SLT)旨在将手语视频序列翻译成基于文本的自然语言句子。手语视频由连续的手势序列组成，中间没有明确的界限。现有的SLT模型通常以逐帧的方式表示手语视觉特征，以避免需要将视频明确地分割为孤立的符号。然而，这些方法忽略了手语的时间信息，导致翻译中存在大量的歧义。在本文中，我们探索手语视频的时间语义结构，以学习更多的判别特征。为此，我们首先提出了一种新的手语视频片段表示方法，该方法考虑了多个时间粒度，从而减轻了对精确视频分割的需求。利用所提出的分段表示，我们开发了一种新的分层手语视频特征学习方法，该方法通过时序语义金字塔网络，称为TSPNet。具体来说，TSPNet引入了尺度间注意来评估和增强手语片段的局部语义一致性，引入了尺度内注意来利用非局部视频上下文来解决语义歧义。实验表明，我们的TSPNet在最大的常用SLT数据集上的BLEU得分(从9.58提高到13.41)和ROUGE得分(从31.80提高到34.96)显著提高，优于最先进的技术。我们的实现可以在https://github.com/verashira/TSPNet上获得。

1 引言

手语翻译(Sign language translation, SLT)是一项重要的手语翻译任务，旨在为连续签名视频提供基于文本的自然语言翻译。由于手语是不同于自然语言的独特语言系统[1]，手语句子及其翻译成自然语言在句法上并不一致。例如，手语与自然语言有不同的词序规则。由于手语与其自然语言翻译之间存在这种差异，因此往往需要使用SLT方法来共同学习手语句子视频与自然语言的嵌入空间以及它们之间的映射关系，这就导致了一个困难的顺序学习问题。

现有的SLT方法可以分为两阶段方法和自启动方法，这取决于它们是否需要对视频和文本对齐进行额外的注释。两阶段模型需要额外的注释，即gloss，以描述按其发生顺序使用单词标签的手语视频。这些模型首先学习使用注释来识别手势，然后将识别结果重新排列成自然语言句子。在这些方法中，注释显著地简化了语法对齐。然而，注释并不容易获得，因为它们需要手语方面的专业知识[2]。相比之下，自举模型直接学习将视频输入翻译成没有注释的自然语言句子。这些模型很容易扩展到更广泛的手语资源，并在最近引起了很大的研究兴趣。本文还研究了自举翻译方法，旨在通过学习更多具有表现力的手语特征来缩小这两种方法之间的翻译精度差距。

手势是手语视频中保持语义的最小单位。然而，由于运动模糊，精细的手势细节，以及不同手势之间的过渡，推断手势之间的界限是困难的。因此，当前的方法[2,3]以逐帧的方式提取符号特征。通过这样做，只捕获了空间外观特征，而忽略了手势之间的时间依赖性。然而，当相似的身体姿势出现时，时间信息有助于区分不同的手势，因此我们期望该信息在SLT模型中有用。

在本文中，我们提出了一种时态语义金字塔网络(TSPNet)来学习视频片段而不是单帧的特征。特别是，我们的目标是学习编码空间外观和时间动态的手势视频表示。然而，从连续的手势视频中获得准确的手势片段是困难的，而噪声片段给特征学习带来了很大的模糊性。在这里，我们观察到影响手势段语义的两个重要因素。首先，手势视频语义是一致的，这意味着暂时接近的片段在本地共享一致的语义。其次，手势的语义依赖于语境。也就是说，非局部信息有助于消除局部手势的语义歧义。受此启发，我们将每个视频分成不同粒度的片段。然后，我们提出的TSPNet利用它们之间的语义一致性进一步增强手势表示。具体来说，在层次结构中组织不同粒度的多个视频片段后，我们的TSPNet通过使用尺度间关注聚合每个语义邻域中的片段特征来增强局部语义一致性。在处理不精确分割引起的局部歧义时，我们开发了一种尺度内关注，沿整个视频序列重新加权局部手势特征。通过分层方法学习手势片段的特征，我们的TSPNet捕获了手势中的时间信息，从而产生了更具判别性的手势视频特征。由于具有更强的特征语义，我们减轻了在手势视频和自然语言句子之间构建映射的困难，从而提高了翻译结果。

我们的模型在最大的公共手语翻译数据集rwth - phoenx - weather - 2014t上显著提高了翻译质量，BLEU得分从9.58[2]提高到13.41,ROUGE得分从31.80[2]提高到34.96，极大地缓解了手语翻译模型对昂贵的注释的约束。

2 相关工作

手语识别。大多数手语研究都集中在单词级手语识别(WSLR)上，旨在从输入的视频中识别单个手势[4,5,6,7,8,9,10,11]。虽然研究WSLR的工作很多，但很少有研究WSLR和SLT之间的联系，从而阻碍了WSLR模型在实践中的应用。早期的WSLR作品[12,4,5,13]对词汇的约束子集进行了研究，导致特征的泛化程度较低。最近的研究成果[10]表明，大规模WLSR数据集[6,9]有利于手势特征学习的泛化能力。受此启发，我们首次尝试将WLSR模型的知识应用于SLT任务，通过重用WLSR骨干网提取视频特征。有趣的是，我们的实验表明，美国手语(ASL) WLSR骨干网甚至对德国手语(GSL)等未见过的（unseen）的手语也有效。

手语翻译。手语翻译的一个主要挑战是手语手势和自然语言单词之间的对齐。一种解决方案是手动为视频中的每个手势提供光泽注释。然而，注释通常需要手语专业知识来注释。因此，它们的标签很昂贵，而且并不总是可用的。Cihan等人[2]提出了一个sign2text (S2T)模型，直接从没有注释的标识视频中预测翻译，这被称为自举方法。特别是，他们的模型以逐帧的方式学习视频特征。由于手势跨越多个连续帧，他们的方法忽略了手势的时间依赖性。与他们的工作不同，我们提出从片段中学习视频特征，同时对手势的空间外观和时间动态建模。我们的特征学习方法以分层的方式利用局部和非局部时间结构来学习判别性的手势视频表示，同时抵消不准确的手势分割的影响。

神经机器翻译(NMT)。NMT任务旨在将一种自然语言翻译成另一种自然语言。大多数NMT模型遵循编码器-解码器范式。早期的工作使用RNN来建模时间语义[14,15,16]。后来，注意机制被用来处理长期依赖[17,18]。最近的Transformer模型[19,20]完全依赖于注意力层和前馈层进行序列建模，而不是rnn。他们在翻译质量和效率上都有了很大的提高。在我们的工作中，我们开发了一种新的编码器架构，以充分利用符号视频中的本地和非本地语义，同时重用Transformer解码器以自然语言生成翻译。

图1:我们提出的TSPNet工作流程概述，它直接从手语视频中生成口语翻译。

3 时态语义金字塔网络

我们的TSPNet采用编码器-解码器架构。编码器通过利用视频片段之间的语义层次结构来学习判别符号视频表示。编码器的输出被馈送到变压器解码器以获取转换。在本节中，我们首先描述了我们提出的标识视频的多尺度分段表示。然后介绍了提出的分层特征学习方法。为了专注于我们的主要贡献，我们省略了详细的解码器架构，请读者参考[19]。

3.1 多尺度分段表示

以前的SLT方法[2,3]以逐帧的方式学习视频特征。由于手势通常持续约半秒(~ 12帧)[21]，这些来自静态图像的特征忽略了手势的时间语义。与他们的方法不同，我们开发了一种手势视频的分段表示，旨在学习手势的空间语义和时间语义。然而，如上所述，很难获得准确的手势边界。为了减轻手势视频分割不精确的影响，我们利用了层次结构中不同间隔尺寸片段之间的语义一致性。具体来说，我们采用滑动窗口方法来创建具有多个窗口宽度的视频片段。

窗口段。给定N帧视频x = {x0, x1，…， xN−1}，其中xi是一个视频帧，一个视频段xm, n是x的子序列，表示为{xm, xm+1，…xm + n−1}。对于窗口宽度w∈N，步幅s∈N，定义x的宽度w步幅s的窗口段为。

窗口段将输入视频均匀地分成重叠的片段。然而，由于视频中的手势长度不同，很难选择合适的窗口宽度:较小的片段倾向于捕获细粒度的手势，但提供较弱的上下文语义，而较大的片段虽然不能捕获短手势语义，但提供更强的上下文知识。为了充分发挥段表示的作用，我们引入了多尺度段表示，并将短段和长段的语义相互补充。具体来说，视频x的多尺度段表示是一组窗口段{Φ(x, wi, si) | 0≤i < M}，其中M、wi和si分别表示尺度数、窗口宽度和步幅。下面我们将长段和短段的尺度分别称为小尺度和大尺度。考虑到视频的多尺度片段表示，我们采用3D卷积网络I3D[22]来提取每个片段的视频特征。为了使我们的骨干网络适应手语手势，我们在两个WSLR数据集上进一步微调I3D[6,9]。

3.2 面向手语翻译的分层视频特征学习

不准确的手势视频分割导致手势语义上的大量歧义。因此，多尺度段的直接组合，如池化或串联，不一定能改善整体翻译结果。为了解决这一问题，我们从对手语视频语义结构的两个关键观察结果开始，即局部一致性和上下文依赖性。首先，手语视频中的手势不断演变。这意味着视频语义的变化是连贯的。因此，时间相近的段应该共享一致的语义。其次，相似的手势可以根据上下文翻译成不同的单词[1,23]，非局部视频信息对于解决单个手势中的语义歧义非常重要，尤其是在视频分割有噪声的情况下。在这些观察结果的驱动下，我们开发了一种分层特征学习方法，该方法利用局部时间结构来增强语义一致性，利用非局部视频上下文来减少语义模糊。

图1展示了我们的TSPNet的概述。对于给定的标识视频，我们首先生成其多尺度分段表示，并从I3D网络中提取特征。我们还开发了一个共享位置嵌入层(章节3.2.1)来了解序列中片段的位置。接下来，我们建议通过聚合每个局部邻域的特征来学习语义一致的表示(第3.2.2节)。最后，TSPNet收集所有聚合特征，并利用它们提供非本地视频上下文，以解决本地手势的模糊性(章节3.2.3)。作为替代方案，我们还引入了一个联合学习层，通过同时利用局部和非局部信息来巩固特征学习(第3.2.4节)。为了表示方便，我们将第i个尺度的窗口段表示为Φi，将第k个尺度表示为。我们用来表示距离主干的φi,k段的特征，D为特征维数。

3.2.1 共享位置编码

与口头语言中的单词类似，手势在整个视频序列中的位置对于翻译很重要。受近期序列建模工作的启发[19]，我们通过表示嵌入空间中的位置索引向视频片段注入位置信息。具体来说，我们学习了一个函数，它将每个位置索引映射到具有相同长度的段特征的嵌入中。然后将这些位置嵌入添加到每个尺度中相应位置的段特征中，得到位置通知的段表示。

我们通过重复最后一帧来填充每个视频，以确保每个比例中的片段数量相等。因此，我们在每个尺度中有相同数量的位置索引。这允许我们在所有尺度上共享的权重。通过的权值共享，我们减少了模型参数的数量，特别是在片段数量较大的情况下，从而有利于训练效率，缓解数据有限时的过拟合问题。共享位置嵌入层的输出是M尺度的位置通知视频表示，即，其中每个尺度有L个段特征

3.2.2 加强局部语义一致性

利用多尺度片段表示，我们通过用较大但语义相关的片段补充较小的片段来解决视频分割不完美的问题。这是通过在周围邻域内进行基于注意力的分段间尺度聚合来实现的。一个周边邻域由较小尺度上的一个主段特征(见图2)和较大尺度上的多个相邻段特征组成。具体地说，对于每个主段，如果它们的帧超过主段的帧，我们通过包含来自更大尺度的片段来构造它的周围邻域。

周围邻域。给定位置通知视频表示，窗口宽度按升序排列w0 < w1 <…< wM−1，我们将一个主段的特征命名为一个主特征。我们定义一个主特征的周围邻域为一个集合，其中分别是段φ和段ψ的位置通知表示。

周边邻域在主段与其邻域之间施加了一种包含关系。因此，我们确保出现在主段部分的手势也包含在相邻部分中。通过这种方式，我们使用邻域为主段提供更多上下文线索，并鼓励模型学习最能代表局部时间区域的聚合特征。

尺度间注意力聚合（Inter-scale Attention Aggregation）。

给定位置通知视频特征，我们的分层特征学习方法首先强制局部语义一致性来补偿不准确的视频分割的影响。如图2所示，较长的邻域片段捕捉到更多的过渡手势，而较短的片段关注的是细粒度的动作，这两者都有助于识别局部区域的手势。因此，对于每个主特征，我们检索其周围邻域，并使用尺度间关注将它们聚合。具体来说，由于不同尺度的片段捕获了手势的不同语义方面，它们可能不会驻留在相同的嵌入空间中。为此，我们首先对它们的特征进行线性映射，并将它们映射到中的共享空间中。然后，我们执行缩放点积关注，将相邻特征聚合为主特征，

式中为缩放后的注意力点积

测量Q、K之间的相关性，并用它来重新加权V;用d表示k中向量的维数，比例因子√d处理点积随着d的增大而增大的影响[19]。为了学习更具表现力的特征，我们添加了两个线性层，中间有一个GELU激活[24]，如下所示:

其中b1和b2∈是对应全连通层的偏差。每个编码所有尺度上的片段的聚合语义，从而在时间区提供局部一致的手势表示。

图2:一个周边邻域由一个枢轴段和多个尺度的相邻段的特征组成。在这里，我们展示了4个具有最高尺度间注意力得分的细分。从第26帧到第37帧，GSL标志是suden(南方)。

3.2.3 非局部语义消歧

个体手语手势的解释取决于句子层面的语境。首先，一个词的手势通常是由两个甚至更多的“元手势”组成的。例如，单词“driver”要求按顺序表现“car”和“person”的标志[1]。“人”的手势可以翻译成“老师”或“学生”，这取决于附带的词。因此，只有在上下文信息存在的情况下，这些手势的语义才会被澄清。第二，相似的手势相当多[9]。例如，“愿望”和“饥饿”的手势非常相似，没有上下文很难区分。由于不精确的手势片段，这些歧义变得更加严重。因此，SLT模型考虑非局部句子信息以解决语义歧义是非常重要的。因此，我们建议通过对丰富的主特征序列的尺度内关注来建模非局部视频上下文。

尺度内注意力聚合（Intra-scale Attention Aggregation）。在我们将多尺度特征聚合成主段之后，我们设计了一个尺度内的注意力，它取作为输入，以便在所有局部区域增强特征。这是通过对聚合的局部特征进行自关注运算来实现的，即，其中, 表示隐藏嵌入空间的维数。与尺度间注意类似，自注意层之后是两个完全连接的层进行特征变换，然后我们获取输出，即，我们将输出送入Transformer解码器进行翻译。

3.2.4 局部和非局部视频语义的联合学习

在前面的小节中，尺度内注意依次顺序跟随尺度间注意。因此，该模型在执行局部语义一致性时不具备非局部视频上下文的知识。当非局部上下文有助于识别局部手势和缓解噪声分割问题时，这就不理想了。作为替代方案，我们建议共同学习本地和非本地视频语义，以便两个信息源彻底交互。通过这种方式，非局部信息有助于更好地识别局部手势。同时，增强的局部手势语义有助于消除歧义。为此，我们将所有的支点段都包含在每个周边邻域中，从而形成延伸的周边邻域。

扩展周边邻域。对于段表示输入视频，窗口宽度按升序排列w0 < w1 <…< wM−1。一个主特征的扩展邻域是一个集合。

由于扩展的周边邻域包括语义相关的多尺度段和所有的枢轴段，我们聚合学习局部和非局部标志视频特征，如下所示:

通过这种方式，我们提出了非局部视频上下文，并鼓励模型共同学习局部识别手势，以减轻由于视频分割不准确而导致的语义歧义。我们最终传递到两个完全连接的层，以获取编码器输出，然后传递到Transformer解码器以生成转换。

4 实验
4. 1 实验设置和实施细节

数据集。我们在RWTH-PHOENIX-Weather 2014T (RPWT)数据集上对TSPNet进行了评估[2]。它是唯一公开可用的用于大规模训练和推理的标准SLT数据集。我们遵循官方的RPWT数据分区协议，其中7096、519、642个视频分别用于训练集、验证集和测试集。这些样本由9位不同的签字人用德国手语(GSL)进行，并提供了德语翻译。RPWT数据集包含大约3k个德语单词的多样化词汇。这将SLT与大多数视觉语言任务区别开来，后者通常词汇量有限，句子结构简单[25,26]。

指标。我们采用BLEU[27]和ROUGE-L[28]两种常用的机器翻译指标进行评价。BLEU-n测量的翻译精度高达n-grams。例如，BLEU-4总结了1、2、3和4克的精度分数。我们使用ROUGE-L，它基于预测和真实翻译之间的最长公共子序列来测量F1分数。一般来说，这两个指标都应该明显低于100，因为在自然语言中有多个相同含义的有效翻译。然而，现有的翻译指标并不能很好地量化这一现象。

表1 RWTH-PHOENIX-Weather 2014T数据集翻译结果对比。

实施和优化。我们在PYTORCH[30]中使用FAIRSEQ[29]框架实现了提出的TSPNet。由于手势平均持续约半秒(~ 12帧)[21]，我们确定最小片段宽度为8，并将其扩大√2到另外两个尺度，即12和16帧片段。在每个尺度中，我们采用2帧的步长来减少特征序列的长度，同时保留最多的语义信息。为了提取视频特征，我们从Kinetics[31]上预训练的I3D网络开始，然后在ASL中的两个WSLR数据集[6,9]上对其进行微调，以适应手语手势视频。为了在特征空间中表示文本，我们采用了SENTENCEPIECE[32]德语子词嵌入[33]，它基于字符单元来处理低频词。我们使用Adam优化器[34]对TSPNet进行优化，其交叉熵损失如[19,35]所示。我们将初始学习率设置为10−4，权重衰减为10−4。我们训练了200个epoch的网络，这足以让所有的模型收敛。

4.2 与最先进技术的比较

竞争的方法。我们将TSPNet与两种自举SLT方法进行了比较。(1) Conv2dRNN[2]在RPWT数据集上达到了最先进的性能。它使用AlexNet[36]提取特征，并采用基于gru的[37]编码器-解码器架构进行序列建模。它还利用了循环单元之上的多个注意力变体[17,18]。我们还与那些基于注意力的变体进行了比较。(ii) TSPNet- single:在此基线中，我们仅将单一规模的部分输入我们的TSPNet。由于只使用了单尺度特征，它只应用了尺度内的注意力聚合，相当于香草的自我注意。因此，该基线退化为Transformer模型。

定量比较。我们在表1中报告了我们的TSPNet和竞争模型的翻译结果。TSPNet-Sequential这一行指的是第3.2.2节和3.2.3节中的设置，我们依次应用尺度间和尺度内的关注。TSPNet-Joint指的是第3.2.4节中的设置，我们通过联合建模来增强本地和非本地视频语义。如表1所示，两种设置都大大优于最先进的SLT模型Conv2d-RNN, BLEU-4评分相对提高了39.80%(9.58→13.41)，ROUGE-L评分相对提高了9.94%(31.80→34.96)。利用我们提出的手势片段视频表示方法，我们的特征不仅编码了手势的空间外观信息，而且还编码了手势的时间信息，因此具有更强的判别性。与TSPNet-Single相比，多尺度设置提高了SLT在所有指标上的性能。这表明了我们的分层特征学习的有效性。此外，TSPNet-Joint的性能优于TSPNetSequential。这反映了包含非局部视频上下文有利于解决手势片段不精确导致的局部歧义。与以往的自举方法相比，TSPNet显著缩小了自举方法与两阶段自举方法之间的性能差距。计算上，在单个NVIDIA V100 GPU上训练一个TSPNet-Joint模型大约需要两个小时，这还不包括一次性离线视觉特征提取的时间。

定性比较。表2显示了由TSPNet和最先进的模型Conv2d-RNN生成的两个示例翻译。在第一个例子中，TSPNet产生了非常准确的翻译，而Conv2d-RNN无法解释原始含义。在第二个例子中，我们模型的翻译通过使用单词“rain”的同义词(即“shower”)来保留手势的含义，而Conv2d-RNN没有捕捉到正确的意图。然而，这种差异并没有完全反映在所采用的度量标准上。补充材料中提供了更多的结果。

表2:TSPNet的示例翻译结果与之前最先进的模型的比较。我们用蓝色标出正确翻译的1-g，用红色标出语义正确的翻译。

表3:本文提出的分段表示和分层特征学习方法在TSPNet中的效果分析。我们在R列报告ROUGE-L分数;B-n列中的BLEU-n。左:多尺度分段的影响。右:层次特征学习方法的影响。

4.3 模型分析与讨论

在本节中，我们研究了最佳模型TSPNet-Joint的不同组件和设计选择对翻译性能的影响。

多尺度分段表示。我们首先研究了特征在不同尺度下的影响。如表3所示，随着我们逐步纳入多尺度特征，我们的模型的性能也随之提高。这表明从层次特征中学习手势表示减轻了视频片段不准确的问题。当仅利用单尺度特征时，我们的TSPNet-Joint模型退化为Transformer模型。我们注意到，包含宽度为16的片段对模型的改善最大。这也与16帧片段在单比例模型中提供最具表现力的特征的发现一致，如表1所示。然而，通过合并更大宽度的片段(例如，24帧)，我们观察到性能略有下降。这是因为24帧片段(大约1秒)通常包含不止一个手势，而局部语义一致性可能不成立。

分层特征学习。为了研究我们的分层特征学习方法的有效性，我们将我们的方法与三种没有充分考虑段间语义相关性的聚合方法进行了比较。(1)位置池化:与第3.2.2节不同，我们融合了跨尺度的同一时间位置的特征。具体来说，我们首先使用单独的编码器对每个尺度上的特征进行编码，然后在多尺度段特征上应用位置明智的最大池化操作。(2)位置方面FC（全连接网络）:我们首先连接位置方面特征，然后使用两个完全连接的层来聚合特征。(3)非限制性关注:与3.2.3节不同，该方法允许每个枢轴关注不同尺度上的所有片段，以验证强制局部一致性的重要性。如表3所示，非结构方法无法利用多尺度段。相反，这三种设置都会导致翻译质量变差。这表明语义结构在组合多尺度段特征时所起的作用。

其他设计选择。(i)在未对WLSR数据集上的I3D网络进行微调的情况下，BLEU-4的最佳得分降至11.23。这表明我们的主干功能甚至可以推广到看不见的手语(例如，GSL)。(ii)当不共享权重，而是为每个尺度学习单独的位置嵌入层时，我们观察到BLEU-4与TSPNet-Joint相比略有下降0.08。当我们共享定位嵌入层权值时，不仅可以减少模型参数，还可以进一步避免过拟合。(iii) TSPNet-Single(8)、(12)结果表明，单纯使用Transformer编码器并不能获得比[2]更好的性能。这意味着性能增益主要来自于所提出的分层特征学习方法。出于训练效率的考虑，重复操作相当耗时(在我们的例子中，训练时间要多出两个数量级)。因此，我们选择避免在模型中使用循环单元。此外，TSPNet-Single(16)取得了比[2]更好的结果。这表明，即使使用适当的均匀分割，我们的段表示在捕获符号的时间语义方面也是有效的。

限制和讨论。尽管提出的分层特征学习方法在手语视频建模中被证明是有效的，但我们注意到我们的模型有一些局限性。例如，像城市名称这样的低频词翻译起来就很有挑战性。此外，面部表情通常反映了信号的程度，例如阵雨与暴雨，这在我们的方法中没有明确建模。我们进一步注意到，这项工作[38]达到了20。BLEU-4在重用来自[39]的视觉骨干网络时得分，这依赖于光泽注释。在这方面，我们提出的方法极大地减轻了昂贵的注释的需求，因此有可能直接从自然语言来源学习手语翻译模型，例如:有字幕的电视画面。因此，我们计划在未来的工作中解决上述问题，并进一步缓解无光泽和依赖光泽方法之间的性能差距。

5 结论

本文提出了一种用于视频手语翻译的时态语义金字塔网络(TSPNet)。为了解决手势边界不可用的问题，TSPNet利用多尺度视频片段的语义相关性来学习手势视频特征，从而减轻了视频分割不准确的问题。特别地，TSPNet引入了一种新的分层特征学习过程，利用尺度间和尺度内的注意机制从噪声分割的视频片段中学习特征。因此，该模型学习了更具表现力的符号视频特征。实验表明，该方法大大优于以往的自举模型，大大降低了视频手语翻译中对昂贵的注释的要求。

yyu77_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation

手语翻译(SLT)旨在将手语视频序列翻译成基于文本的自然语言句子。
复制链接

扫一扫