IJCV 2024 | SyDog-Video:用于时间姿态估计的合成狗视频数据集

SyDog-Video: A Synthetic Dog Video Dataset for Temporal Pose Estimation

SyDog-Video:用于时间姿态估计的合成狗视频数据集

Moira Shooter, Charles Malleson, Adrian Hilton


摘要

我们的目标是使用时间深度学习模型从视频中估计狗的姿态,因为当出现临时遮挡或大幅度运动时,这可以得出更准确的姿态预测。一般来说,深度学习模型需要大量数据才能表现良好。据我们所知,目前不存在包含狗视频的公共姿态数据集。为了解决这个问题,并避免手动标记视频,这可能需要很多时间,我们使用Unity3D生成了一个包含500个视频的合成数据集,狗在其中执行不同的动作。通过随机化照明、背景、相机参数以及狗的外形和姿态等参数来实现多样性。我们通过评估模型对真实数据的泛化能力来评估我们合成数据集的质量。通常,训练在合成数据上的网络在评估真实数据时表现不佳,这是由于领域差距造成的。尽管在提高合成数据集的质量并引入多样性后仍然存在领域差距,我们通过应用两种不同的方法来弥合领域差距:微调和使用混合数据集训练网络。此外,我们将在合成数据上预训练的模型与在现实世界动物姿态数据集上预训练的模型进行比较。我们证明,使用合成数据集对于训练具有(小)现实世界数据集的模型是有益的。此外,我们展示了使用合成数据集预训练模型是解决狗视频姿态估计任务的首选,而不是预训练在现实世界数据集上。

关键词
动物姿态估计 · 合成数据 · 领域适应 · 时间 · 深度学习

1 引言

全球有33%的家庭拥有狗,这使得它成为人类最好的朋友。通常,狗主人希望他们的狗有良好的福利。他们希望确保他们的狗有合适的环境、饮食、与其他动物互动的能力、展示正常行为模式的能力以及免受疼痛、痛苦、伤害和疾病的保护。为了解决最后两个需求,量化犬类运动和步态对于诊断跛行等健康状况至关重要。传统上,使用基于标记的运动捕捉系统来评估犬类的步态,然而,由于多年来在人类和动物深度学习姿态估计方法中取得了显著的积极成果,现在可以以无标记的方式估计动物的姿态。这不仅为兽医学开辟了应用,还为生态学、机器人学和娱乐业开辟了应用。除了Liu等人和Russello等人的工作外,许多以前的动物姿态估计方法都是单独处理视频帧,而不是以端到端的方式处理帧序列。这些方法忽略了宝贵的时间上下文,这可能导致在大幅度帧间运动和临时遮挡的情况下姿态估计不准确。使用时间模型可以从野外动物的视频(例如奔跑和与环境及其他动物互动)中产生更准确的姿态估计。深度学习方法需要大量数据才能表现和泛化良好。虽然来自相机陷阱的动物数据总量正在迅速增加,但仍缺乏动物姿态数据集,据我们所知,没有包含带有注释姿态的狗视频的数据集。StanfordExtra是唯一大规模公开可用的包含狗的单独图像的数据集。通常,为了创建姿态数据集,需要人类手动标记许多视频帧上的解剖特征,例如骨架关节。这可能既费时又昂贵,并且容易出现错误;特别是当创建包含狗的数据集时,因为狗的品种之间有很多变化。因此,为了使模型能够估计不同品种的姿态,需要一个具有很多变化的大型数据集。为了解决对大型数据集的需求,一些先前的方法使用合成数据作为训练数据,因为它具有产生无限多样化数据和准确标签的优势。在本文中,我们使用时间模型估计野外狗视频中的姿态。由于缺乏狗视频姿态数据集,我们通过扩展SyDog的工作生成了一个合成数据集。我们生成了一个包含500个不同狗执行不同动作的合成数据集,标记有2D关键点坐标、边界框坐标和分割图。我们使用一个小型真实世界数据集评估了姿态估计模型,我们称之为Dogio-11,这是为了这项工作而制作的。深度学习模型训练在合成数据上通常在评估真实数据时表现不佳;这是由于领域差距。为了弥合差距,我们首先尝试提高合成数据的质量。然而,在真实数据上评估时,我们证明了领域差距仍然存在,因此我们应用了两种不同的迁移学习方法。贡献的总结是:(i) 生成了一个大规模合成数据集,包含500个狗执行不同动作的视频,标记有2D真实标注,包括边界框坐标、关键点坐标和分割图。(ii) 我们证明,预先训练模型对于能够训练小型视频数据集至关重要。此外,我们表明,在合成数据上预先训练的模型比在大型现实世界数据集上预先训练的模型表现更好。代码和数据集将在出版后提供。

2 相关工作

许多研究已经研究了使用合成数据作为训练数据的原因。在创建数据集时,需要意识到版权问题,当涉及到人类时,还有隐私问题。此外,手动创建数据集可能导致有偏见的数据集,并且可能耗时、昂贵,并且可能有更多不准确的注释。

2.1 合成数据

由于深度学习方法需要大量数据,因此对生成和使用合成数据作为训练数据的兴趣开始增长。合成数据已经被用于许多计算机视觉任务,如估计光流、目标检测、语义和实例分割、姿态估计等。使用不同的方法生成计算机视觉合成数据集,例如将3D资产粘贴到真实背景上,无论是以现实还是不现实的方式。其他方法重新使用了来自游戏的3D环境/资产,例如由3D艺术家制作的GTA V。这启发了其他工作使用游戏引擎如Unity 3D和Unreal Engine创建合成数据集。

2.2 使用合成数据训练

虽然生成合成数据有其好处,但将其作为训练数据使用可能会带来复杂性,特别是当涉及到高级计算机视觉任务时。通常,当模型在合成数据上训练并在真实数据上评估时,模型表现不佳,无法泛化到真实数据。这被称为领域差距,这是由于合成和真实数据分布不同造成的。以前的工作试图使用领域随机化来弥合差距,通过在模拟器中随机化参数,为模型引入足够的多样性,以便在评估时将领域外的数据集视为另一种变化。其他方法提出使用生成对抗网络(GANs)来改进合成数据的质量。然而,尽管这可能提高了数据的质量,但可能并没有提高模型的性能。因此,其他方法提出对网络的特征或网络本身应用领域适应。

3 数据和方法

在这一部分中,我们讨论了我们如何获取真实世界数据集(第3.1节),生成合成数据集(第3.2节),以及数据集是如何根据不同的评估进行分割的。

3.1 数据获取

我们的方法在真实世界数据上进行了评估,这些数据来自Pexels和Youtube-8M数据集。我们获得了14个视频,采样率为25-30fps,并修剪到5-6秒。视频包含不同类型的狗品种,背景在照明和相机视点上有所不同。视频被注释了与合成数据集中标记的相同33个身体部位的关键点。我们使用cocoannotator来注释我们的数据。我们尝试标记所有33个关键点。然而,当存在不确定性时,我们将关键点设置为不可见,并没有注释它。

3.2 数据生成

我们的工作是SyDog的扩展,然而我们修改了生成器以合成帧序列而不是单独的帧。此外,我们通过在3D模型上添加毛发并使用高动态范围图像(HDRIs)将模型集成到背景中来提高合成数据的质量。

3.2.1 渲染

我们使用游戏引擎Unity3D生成合成视频,并利用Unity Perception包。Perception包可以快速准确地生成标记数据,并轻松应用领域随机化。在装有2.60 GHz 6-Core Intel Corei7、NVIDIA GeForce RTX 2070(Max-Q Design)的Windows 10机器上,我们在大约45分钟内生成了17,500帧,标记有2D边界框、33个关键点标签和分割图。这个时间包括将数据写入磁盘的时间。Perception包使我们能够随机化相机等参数。相机被放置在狗周围的不同点,面向狗的身体。焦距和光圈被变化以模拟不同的相机和镜头。此外,相机的偏航角也被随机化。为了照亮场景,我们使用了一个定向光、2个点光源,并像Wood等人一样,利用基于图像的照明和HDRIs来照亮3D狗模型并为我们提供背景。我们通过随机化一天中的小时数、一年中的天数和光的纬度来随机化定向光的角度。此外,我们还随机化了光的强度和色温。我们建议读者查看表11以获取更多详细信息。对于每个视频,我们从503个HDRIs的集合中随机采样。我们将HDRIs分为训练和测试集。

3.2.2 狗的外观

我们使用了5种不同大小的3D狗模型(图1)。为了使模型能够与本工作中使用的AI4Animation项目正常工作,模型需要与原始项目中附带的默认狗具有相同的比例和形状。3D艺术家以逼真的方式手绘了狗的大部分纹理(图2)。在最终数据集中,每个3D模型有10种不同的纹理可供采样。除了手绘纹理外,我们还使用FluffyGroomingTool为模型添加了毛发。该工具内置了重力、风、物理和碰撞器。然而,为了使毛发工具与Perception包一起工作,我们必须将基于卡片的毛发转换为3D网格。不幸的是,这意味着我们不能利用重力、风、物理或碰撞器。最初,3D模型是使用AI4 Animation项目动画的,可以通过手动按键盘键(如WASD键)执行5种不同的动画——行走、奔跑、跳跃、坐下和躺下。我们实现了一个Perception Package Randomizer来自动执行动画。通过控制随机器的种子,可以使动画变得可重复。

3.2.3 场景背景

如第3.2.1节所述,我们使用HDRIs作为背景。最初,我们生成了一个背景清晰的数据集,但我们决定还生成4个带有不同干扰物/遮挡物(第5.6节)的合成数据集。我们使用的干扰物是来自PolyHaven的119个3D资产,包括道具、植物和工具。对于每个视频,这些3D资产在3D中被随机定位和旋转。此外,我们还从Adobe获取了3D人类资产,包括动画。这些人类资产被随机放置在场景的地面几何体上,围绕垂直轴旋转,并分配了随机动画,如行走、慢跑、打电话、呼吸、鼓掌或挥手。

3.2.4 领域随机化

我们依赖领域随机化,以使训练在合成数据上的估计模型泛化到真实数据。通过随机化毛发类型、光照条件和背景等参数,为合成数据增加了多样性。合成数据集中的所有参数都使用均匀分布。通常,对于单个图像的数据集,我们会在每一帧上随机化。但由于我们正在生成视频帧,模拟环境被设置为在每次迭代(视频)时而不是每一帧上随机化,因此我们在OnIterationStart()函数而不是OnUpdate()函数中实现了代码(图11)。

3.3 架构

我们使用了LSTM Pose Machine架构,最初是为人类姿态估计开发的,它基于卷积姿态机网络。作者将多阶段CNN转换为递归神经网络(RNN)。这允许在帧之间放置长短期记忆单元,从而使网络学习视频帧之间的时间依赖性,并及时捕捉关节的几何关系。

3.4 训练过程

我们使用PyTorch Lightning实现了我们的方法。我们扩展了Ma的代码。我们使用Nvidia GeForce RTX 2080 Ti GPU运行实验,并使用Tensorboard跟踪训练进度。对于所有实验,我们定义训练损失为均方误差损失(MSE)。我们希望找到在真实数据上训练模型的最佳模型,以便在训练合成数据和真实数据的模型之间进行公平比较。我们通过使用开源超参数优化框架Optuna搜索超参数空间来找到最佳模型。当使用合成数据集训练时,我们将模型的长度设置为5(即 T = 5),并将超参数设置为Luo等人中的参数,只是我们将批量大小设置为2而不是4。

4 实验和评估

4.1 实验

我们执行不同的实验来评估生成的合成数据的质量:

  1. 仅在真实数据上训练网络。
  2. 仅在合成数据上训练网络。
  3. 使用合成数据预训练网络,然后使用真实数据进行微调(微调)。
  4. 在合成数据和真实数据上训练网络(混合训练)。

此外,我们评估了使用合成数据训练的模型是否能够泛化到真实数据以及模型未见过的狗品种。此外,我们比较了在不同类型的数据集上预训练的模型的性能:

  1. 合成数据集(SyDog-Video)
  2. StanfordExtra
  3. Animal Pose
  4. APT-36K
  5. ImageNet

在ImageNet上训练的模型进行了修改:LSTM Pose Machine中的特征提取器被替换为在ImageNet上预训练的ResNets。

4.2 数据集

4.2.1 Dogio-11

从现在起,我们将真实数据集称为Dogio-11。为了制作Dogio-11,我们首先修改了真实数据集的关键点,使其映射到合成数据集的关键点(表1)。在第4.2节中获取的标记数据集包含14个不同品种的视频:罗威纳(1×)、拉布拉多(1×)、哈士奇(1×)、边境牧羊犬(5×)、德国牧羊犬(3×)、吉娃娃(1×)、迷你贵宾犬(1×)和山地犬(1×)。由于我们使用领域内数据和领域外数据评估模型,我们制作了一个名为Dogio-11的数据集,其中包含7个品种(11个视频)用于训练,1个品种用于测试(3个视频)。与Russello等人类似,我们将视频分割成5帧无重叠的样本。我们不是首先生成样本,而是最初将视频分割成训练集和测试集,然后将视频分割成样本。我们请读者参考表2,以详细了解我们如何生成和分割Dogio-11数据集。我们使用Dogio-11来评估模型对已知狗品种(已知)的未知帧序列的泛化能力,以及对未知狗品种(未知)的泛化能力。如前所述,我们将数据集分割成11个训练视频和3个测试视频。然后我们对视频进行采样成序列,并取50%的随机训练样本用于训练——另外50%用于测试领域内鲁棒性。3个测试视频,用于查看模型是否泛化到不同类型的品种,被采样成5帧无重叠的序列,这产生了总共96个样本。

4.2.2 SyDog-Video

从现在起,我们将合成数据集称为SyDogVideo。我们制作了一个包含500个合成视频的数据集,每个视频包含175帧(87,500帧)。该数据集包括带有HDRI和地面几何(地板/地形)的图像,但未包含带有干扰物/遮挡物(如3D资产或3D人物)的视频。然而,在第5.5节中,我们评估了在背景中添加干扰物的重要性。为了验证网络在合成数据集上的性能,我们保留了数据集中的一种狗品种。我们根据狗的品种分割数据集。我们使用4只狗进行训练,1只狗进行测试。此外,测试数据集包含在训练数据集中未出现的背景。请参阅表3,以了解SyDog-Video的培训和测试样本数量的概述。

4.2.3 动物姿态数据集

我们使用以下动物姿态数据集,包括动物/狗的图像,来训练网络,并比较与(预)训练在合成数据上的模型的模型。我们遵循Luo等人的程序,从LSTM Pose Machine网络构建了一个单图像模型。单图像模型具有相同的结构,然而,在每个阶段,输入是相同的图像而不是不同的帧。StanfordExtra数据集是一个大规模数据集,包含基于Stanford Dogs数据集的120个不同狗品种的12k图像。为了训练网络,我们根据StanfordExtra论文(54:32:14)提供的分割来分割数据。我们在StanfordExtra测试数据集上评估模型以进行验证。此外,StanfordExtra数据集用于创建混合训练数据集。Animal Pose数据集包含4k多张狗、猫、马、牛和羊的图像。与Mathis等人从原始数据集中只使用包含单个主题的图像子集不同,我们根据边界框坐标裁剪每张图像,结果使我们拥有图像中的单个动物。我们使用80%的数据集进行训练,20%的数据集用于测试。APT-36K用于训练网络,并能够与在合成数据上预训练的网络进行比较。最初,数据集包括36,000张标记图像,展示多样化的动物。认识到时间信息的价值,我们对数据集进行了预处理以生成序列,使我们能够利用这个时间方面。因此,我们获得了最终的3,774个序列集。数据集被分割成训练和测试集,80%用于训练,剩余的20%用于测试。如第4.1节所述,我们在微调模型之前和之后使用Dogio-11测试数据集评估了在动物数据集上训练的模型。410帧中的155帧(37.80%)被归类为具有挑战性的案例,由于诸如时间遮挡或包括大量运动等因素。在第5.4节中,我们分析并比较了这些具有挑战性的案例与简单案例以及整体测试集的性能。

4.3 评估指标

使用检测到的关节百分比(PDJ)来评估姿态估计模型。PDJ指标表示正确关键点的百分比,如果预测的关键点与真实关键点的距离小于边界框对角线的一部分,则认为预测的关键点是正确的。例如,PDJ@0.1是关键点在边界框对角线10%的阈值内的百分比。在下面的等式中, d i d_i di表示数据/主题 i i i的边界框对角线的长度,该长度是根据真实标注计算的。 p k p_k pk t k t_k tk分别是关键点 k k k的预测和真实位置。最后, α \alpha α表示比例阈值。

P D J @ α = 1 N ∑ i = 1 N σ ( ∥ p k − t k ∥ − d i × α ) PDJ@\alpha = \frac{1}{N} \sum_{i=1}^{N} \sigma(\| p_k - t_k \| - d_i \times \alpha) PDJ@α=N1i=1Nσ(pktkdi×α)

其中 σ ( x ) = 1 \sigma(x) = 1 σ(x)=1 x ≤ 0 x \leq 0 x0时,否则 σ ( x ) = 0 \sigma(x) = 0 σ(x)=0。我们将阈值设置为0.1。此外,还使用平均每个关节位置误差(MPJPE)指标来评估姿态估计模型。它测量预测和真实关键点之间的欧几里得距离的平均值。

M P J P E = 1 N ∑ i = 1 N ∥ p k − t k ∥ MPJPE = \frac{1}{N} \sum_{i=1}^{N} \| p_k - t_k \| MPJPE=N1i=1Npktk

MPJPE指标相对于边界框对角线的长度进行了归一化。

5 结果和讨论

在这项工作中,我们评估了我们生成的名为SyDog-Video的合成视频数据集的使用情况。

5.1 仅在真实数据上训练的模型

为了能够公平地比较在合成数据上训练的模型与在真实数据上训练的模型,我们增强了数据的外观(转换为灰度、传感器噪声、亮度和对比度)和几何属性(旋转、随机裁剪)。尽管我们试图找到最佳模型(第3.4节)并增强训练数据,但模型无法学习。这很可能是因为训练数据集很小(115个样本)和不一致的2D真实标注。

5.2 仅在合成数据上训练的模型

表4展示了模型在各种SyDog-Video测试数据集上的准确性。这些数据集包括在网络中未见过的背景和狗的序列。为了确保全面评估,由于测试集只包含一个狗品种,我们采用了留一法交叉验证方法。这涉及到在每次训练网络时排除一个狗品种,并随后平均获得的结果。我们对表4的分析使我们得出结论,保持狗的形状和大小的多样性具有重要意义。模型在真实数据上的泛化能力进行了评估(表5)。结果表明,领域差距仍然很大。我们通过使用Dogio-11训练数据集对模型进行微调,并通过使用混合数据集训练网络来解决这个问题,这两种方法都成功地弥合了领域差距,我们将在第5.3节中讨论。图3展示了合成测试数据集的定性结果。请注意,测试样本只包含未见过的狗品种和未见过的背景图像。

5.3 迁移学习结果

如第5.2节所示,训练在合成数据上的模型在评估真实数据时表现不佳。这是由于领域差距。然而,这些模型确实比仅在真实数据上训练的模型表现更好。我们的目标是通过应用迁移学习方法,如微调和使用混合训练数据集(合成+真实样本)来弥合领域差距。如第4.2.3节所述,我们使用StanfordExtra数据集创建了混合训练数据集。表6比较了微调后的模型与使用混合数据集训练的模型的准确性。图4展示了在已知Dogio-11测试数据集上的样本在微调前后的定性结果。我们没有显示未知测试数据集的结果,因为由于Dogio-11训练数据集的大小非常小(115个样本),网络无法很好地泛化到新的狗品种。由于Dogio-11训练数据集的大小非常小,我们还决定对在SyDog-Video数据集上预训练的网络进行微调,在更大的真实世界数据集上进行微调,并在Dogio-11测试数据集上进行评估。由于不同的数据分布,这些数据集和评估在Dogio-11测试数据集上产生了不满意的结果(表8)。因此,使用Dogio-11训练集进行了额外的微调。展望未来,我们的分析将集中在对比经历了双重微调的网络(表8)与仅微调一次的网络(预训练在不同数据集上的合成和真实)的性能(表7)。经历了双重微调的网络在未知Dogio-11测试集上表现出提高的性能,这表明网络的泛化能力有所增加。相反,先在Stanford Extra数据集上微调网络,然后在Dogio-11训练集上进行微调,导致在已知Dogio-11测试集上的性能降低。这很可能是因为Stanford Extra数据集的基于帧的特性,可能导致最初有益的时间上下文丢失。经历了双重微调的网络在PCK性能上有轻微但边际的提高,第一轮使用Animal Pose数据集进行微调,而在已知Dogio-11测试集上的MPJPE性能有轻微的降低。虽然图像数据集比Dogio-11训练集大,但这强调了当使用基于图像的数据集而不是视频数据集对网络进行微调时,网络会取消学习时间上下文。最后,先在APT35K视频数据集上进行微调,然后在Dogio-11训练集上进行微调,导致在已知Dogio-11测试集上的PCK提高了11.6个单位。这突出了使用真实世界视频数据集进行微调的有效性,而不仅仅是基于图像的数据集。虽然最后一种变化展示了网络性能的提高,但重要的是强调,通过在Dogio-11训练集上仅微调一次的SyDog-Video训练集上预训练的网络,实现了最佳结果。

5.4 在不同数据集上预训练

在这一部分中,我们讨论了使用第4.1节中提到的不同类型的数据集(合成和真实)预训练的LSTM Pose Machine的准确性。我们使用表7证明,使用合成数据预训练的模型在领域内测试数据上是稳健的;然而,在领域外数据上测试时表现不佳。尽管模型不能泛化到新的狗品种,但它比在真实世界数据集上预训练的模型表现更好。我们预计,将更多多样化的视频添加到Dogio-11训练数据集中将有助于网络泛化到未见过的狗品种。

除了定性结果外,我们还通过表9中的定量分析来证实我们的发现。这种全面的比较评估了在不同测试分布上预训练在各种数据集上的网络的性能,包括具有挑战性、简单和测试集。值得注意的是,我们的结果清楚地表明,使用我们的合成视频数据集进行预训练的网络在所有测试集上始终优于在真实数据集上预训练的网络。此外,使用合成数据预训练的网络的性能表明,在任务的不同难度级别中具有通用性。

5.5 干扰物是否重要?

如第4.2.2节所述,我们评估了合成图像背景中干扰物的重要性。我们将干扰物定义为可能遮挡或不遮挡狗的3D物体或人物。我们生成了4个与原始合成数据集SyDogVideo相似的数据集,这些数据集在背景上有所不同。为了比较数据集,我们跨数据集保持相同的种子,但是种子针对数据集的类型不同(表12)。这意味着所有随机化器在数据集之间是确定性的,但对每种数据集类型是非确定性的。以下是更详细描述的数据集:

  • w(ith)_assets: 背景包含静态3D资产。
  • w(ith)_people: 背景包含执行动作的3D人物,如行走。
  • w(ith)_assetsPlusPeople: 背景包含静态3D资产和动态人物。
  • w(ith)o(out)_groundplane: 与SyDogVideo数据集相同,但没有地面几何。

图9显示了使用不同类型的合成数据集预训练并微调在Dogio-11训练数据集上的模型的准确性的条形图。此外,它还显示了使用混合数据集训练的模型的准确性。模型在两个Dogio11测试数据集上进行了评估。记住,一个测试数据集包含已知狗的未见帧(已知),另一个测试数据集包含未见狗品种的帧(未知)。对于未知测试数据集,蓝色条形图显示了在已知测试数据集上的结果,绿色条形图显示了在未知测试数据集上的结果。这表明,使用没有地面平面的数据集进行预训练的模型优于在其他合成数据集上训练的模型。同样表明,在合成数据集中添加3D人物可以提高微调后模型的性能。再次推断,我们通过微调而不是使用混合数据集获得了更好的模型准确性。虽然添加3D资产或3D资产和人物在混合数据集训练时并没有帮助模型的性能。

5.6 消融

首先,我们分析了合成数据集大小对微调后模型性能的影响。在SyDog-Video训练数据集上预训练的模型在没有地面几何的情况下,在两个Dogio-11测试数据集上进行了评估。图10表明,模型的性能随着合成训练样本的数量增加而提高,但在7700个样本之后开始下降。

虽然基于图像的数据集比Dogio-11训练集大,但通过使用视频数据集对网络进行微调,利用其固有的时间信息,而不是依赖基于图像的数据集,实现了网络的最佳性能。通过使用真实世界视频数据集对最初在合成数据上预训练的网络进行两次微调,可以在Dogio-11测试集上提高姿态估计的性能,但最佳结果通过仅使用Dogio-11训练集对在合成数据上预训练的网络进行一次微调来实现。

我们还展示了在训练时向合成数据集添加某种类型的干扰物可以根据迁移学习方法提高模型的性能。并说明合成数据集的大小可以提高模型的性能到某个点,超过这一点,模型的准确性会稳定或下降。最后,我们展示了在训练时增强合成数据集可以提高模型的性能。

6 结论

我们生成了一个名为SyDog-Video的合成数据集,其中包含狗的图像序列,以解决缺乏姿态数据集的问题,并避免手动标记视频的需要,因为这可能耗时、成本高昂且容易标记错误。我们训练了一个时间深度学习模型(LSTM Pose Machine),以从视频中估计狗的姿态,与静态深度学习模型相比,当出现临时遮挡或大幅度运动时,它可以得出更准确的姿态预测。

数据集通过随机化照明、背景、相机参数以及狗的外形和姿态等参数来实现多样性。我们最初旨在通过提高合成数据集的质量来弥合领域差距。然而,领域差距仍然存在,因此我们应用了两种不同的迁移学习方法:微调和使用混合数据集来训练网络。

据我们所知,目前没有公开可用的数据集包含带有注释姿态数据的狗视频;因此,为了评估我们的方法,我们制造了一个名为Dogio-11的真实世界姿态数据集。大约1k帧的2D边界框和33个关键点坐标的标记是耗时的,而且由于训练集规模小(115个样本)和标注不一致,LSTM Pose Machine网络无法学习。

我们证明了预先训练网络的必要性,以便网络能够从有限的训练数据中有效学习。此外,我们证明使用SyDog-Video数据集预训练网络优于使用真实世界动物姿态数据集训练的模型。这很可能是因为模型学习了合成视频的时间上下文,而训练在真实世界动物姿态数据集上的模型是单图像模型,而不是时间模型。

由于SyDog-Video数据集即使在某些关键点对人类眼睛不可见时也能自动且准确地标记,而真实世界动物姿态数据集中被认为不可见的关键点坐标没有被标记。由于Dogio-11训练集的规模小,我们在更大的真实世界数据集上对在合成数据集上预训练的网络进行了微调,包括图像或视频,并在Dogio-11测试集上进行了评估。

在最初的微调之后,由于不同的数据分布,网络在Dogio-11测试集上表现不佳。为了解决这个问题,我们使用Dogio-11训练集进行了第二轮微调。这第二轮微调表明,网络的泛化能力有所提高。

虽然在混合数据集训练时添加3D资产或3D资产和人物并没有帮助模型的性能,但我们表明,在训练时增强合成数据集可以提高模型的性能。总之,使用我们的合成视频数据集SyDog-Video作为训练集对于预训练时间模型是有益的。这个时间模型随后可以与(小)真实世界的姿态视频数据集一起微调,因为生成大规模合成数据集更快,更具成本效益,并且标签比标记真实世界视频更一致。使用SyDog-Video进行预训练的模型在微调和评估真实世界(小尺寸)姿态数据集时可以得出更准确的姿态预测。

网络在微调之前无法泛化到真实数据,并且在微调之前和之后无法泛化到新的狗品种。我们相信,通过增加合成数据集的多样性,增加品种数量并进一步提高其照片写实度,将提高模型在真实数据和新狗品种视频上评估时的性能。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

  • 20
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值