端到端训练 联合训练_图分解的端到端学习

source:End-to-end Learning for Graph Decomposition

Jie Song ETH Zurich

Bjoern Andres MPI for Intelligent Systems

注:以下一元指的是unary,二元/二进制指的是binary

我们为图分解问题提出了一个新颖的端到端可训练框架。最小费用multicut问题首先被转换成无约束的二进制三次公式,其中循环一致性约束被并入目标函数。新的优化问题可看作一个条件随机场,其中随机变量与初始图的二进制边标记相关联,硬约束作为高阶势引入条件随机场。标准神经网络和完全可微分的CRF的参数以端到端的方式进行优化。此外,通过考虑输出随机变量间的相关性,我们的方法在深层特征表示的学习期间利用循环约束作为元监督信号。我们对端到端的学习表征进行了分析,展示了联合训练对MNIST图像聚类任务的影响。我们还验证了我们的方法对于特征学习和最终聚类在现实世界的多人姿态估计的挑战性任务的有效性。

1.介绍

许多计算机视觉问题如多人姿势估计[33]、实例分割[19]和多目标跟踪[38],可被视为优化问题,其中图分解是可行的解决方案。例如,在多人姿势估计中,可构建图G = (V,E),其中节点V对应于身体关节检测,而边E连接假设指示同一人的检测[33]。相对于图G将描述同一人的检测划分为相同的连接组件是相对于线性目标函数的最小成本多输出问题[7,3]。

它有几个吸引人的特性:

首先,与其他平衡割问题[36]相比,它不支持one decomposition over another。它不依赖于固定数量的图形组件或通过问题定义对它们进行偏置(bias),而是使分解数由解以无偏的方式确定。

其次,在实践中直接利用此优化问题很简单:对许多视觉任务而言,它可以轻松构建输入图,并从某些深度神经网络(例如深度神经网络)可靠地获得入射节点处于不同组件中的成本。 [12,19]。

到目前为止,将最低成本的多割问题应用于视觉任务的最常见方法是采用多阶段pipeline[19、33、13、39]。 简言之,首先,通过两个单独训练的网络获得与任务有关的检测及检测之间的亲和力度量。 其次,基于网络输出构造目标函数的系数,第三,通过分支定界算法[33,38]或启发式贪婪搜索算法[5]在检测图的顶部独立执行优化。

虽然简单明了,但多阶段方法的一个值得注意的地方是,深度网络是局部学习的,而没有利用如何在全局范围内进行图分解的知识。在训练深度特征表示的过程中,我们没有考虑优化变量间的依赖性。值得注意的是,一些工作已经表明,将条件随机场(CRFs)等图形模型与深度学习相结合来训练特征表示,可以带来显著的性能提升[45,40]。然而,当考虑到一般图分解问题(如最小成本多切问题)所定义的变量全局依赖性时,如何开发一种学习算法,使其能够学习到更好的深度特征表示是一个悬而未决的问题。

受此问题的启发,我们提出了一种新颖的端到端可训练框架,用于特征表示和图分解问题的联合学习。 首先将最小成本多割问题转换为无约束二进制三次(binary cubic)问题,以将硬一致性约束合并到目标函数中。 这个新的优化问题的吸引人之处在于,它可被视为条件随机字段(CRF)。 CRF的随机变量与初始图的二进制边标签相关联,硬约束作为CRF中的高阶电势引入。 我们进一步提出了一个端到端的可学习框架,该框架由一个标准的卷积神经网络(CNN)作为前端和一个完全可微分的具有高阶电势的CRF组成。

此框架的优点是:(i)在通过反向传播训练整个网络的过程中,共同优化了CRF的参数和前端CNN的权重。 这样的联合训练促进了单边势和高阶势之间的可学习的平衡,从而加强了边标记的有效性以导致更好的分解。 (ii)由高阶势编码的循环不等式在学习深度特征表示过程中充当监督信号。 来自全局一致性约束的元监督与直接的局部监督(标准的CNN培训)相辅相成,它通过考虑输出随机变量间的依赖关系来教导网络如何表现。

在实验中,我们首先对聚类MNIST([22])图像的任务进行分析,表明通过强制执行全局一致性约束对于特征学习是有益的。 然后,我们在具有挑战性的非约束图像中的多人姿势估计任务上展示了本文的新模型。结果表明,端到端学习框架在更好的特征学习,循环约束有效性,更严格的边际估计置信度和最终姿势估计性能方面是有效的。

2. Related Work

最小成本多割问题

多割问题已被探索用于各种计算机视觉任务[33,12,38,19,17,24]。[17]将其应用于运动分割,将像素化的运动轨迹聚类到各个运动物体中。[33,13]提出了一个联合节点和边缘标签问题,以模拟多人姿势估计任务。[38,39]将多目标跟踪任务表述为图分解问题。与此同时,[4,15,16,18,30,43]提出了许多有效解决最小成本多割问题的算法。

[4]提出了一种相关聚类融合方法,通过融合操作对当前解进行迭代改进。[43]依靠列生成,将子问题的可行解组合成平面图中连续较好的解。[37]提出了一种双分解和线性规划松弛算法,将消息传递和循环与奇数轮不等式的分离高效交替进行。还有一些算法将优化问题作为层集成到网络架构中进行端到端训练[1,35,10,44]。[44]构建了其计算图的不同矩阵层,分析导数是通过矩阵反推得到的。[35]提出了网络流问题成本函数的端到端学习框架,多物体跟踪是本文的目标应用。[1]提出了一种将二次规划与深度网络集成的一般方法。由于约束数的立方复杂度,这种方法能否用于复杂的视觉任务是一个未知数。据我们所知,我们的工作是引入多割formulation的端到端可学习框架的第一个工作。

学习深度结构化模型

已经有一些工作提出了联合学习特征表示和the variables of interest间的结构依赖性[6,2,26,8]。[6]提出了一个学习框架来联合估计深层表示和其马尔科夫随机场模型的参数。[45]提出将平均场迭代制定为循环神经网络层,[2]进一步扩展了[45],将对象检测和超像素势能纳入了语义分割任务。[8]提出了CRF-CNN模型,将结构信息纳入其CNN的隐藏特征层。我们工作的目标是为最小成本多割问题设计一个端到端学习框架。虽然这里使用的均值场推理不能保证产生可行的图分解,但它可以有效地集成到CNN中,以促进所需的联合培训。

人的姿势估计

最近基于深度神经网络的方法在自然图像中人的姿势估计上取得了很大进展,特别是在针对单人的情况中[40,27,42,29,32,25]。至于更普遍的多人情况,以往工作主要可分为自上而下、自下而上两种。自上而下的方法首先检测单个人,然后预测每个人的姿势[9,31,11]。自上而下方法面临的挑战之一是,它在很早的时候就会做出检测决策,这很脆弱,容易出现假否定。自下而上的方法直接检测单个身体关节,然后将其与单个人联系起来[5,13,12,26]。[33,5]首先由深度网络训练身体关节检测和检测之间的亲和度量,然后通过分支和约束算法[33]或启发式贪婪搜索算法[5]独立进行关联。与自上而下的方法相比,一个潜在的优势是检测的决策(通常部署了非最大抑制(???))是在低层(关节)而不是在最高层(人)进行的。我们的工作也与[26]有关。不同的是,我们的方法专注于图分解问题的端到端学习,而在[26]中,关联是通过直接预测人的ID与关节检测一起训练的。

3.优化问题

3.1 最低成本多割问题

最小成本多割问题[7,3]是关于图G=(V,E)和成本函数c:E→R的受约束的二进制(binary)线性规划。

这里,优化变量y∈{0,1}E对应于边E的二进制标签,ye=1表示边e被切割。换句话说,由边e连接的节点v和w处于G的不同成分中,cc(G)表示G的所有chord-less(无和弦???)循环的集合,式2中的循环约束定义了可行的边标签,它与图G的分解一一相关,图1展示了一个玩具例子:(a)表示图G; (b)和(c)分别显示了可行解和不可行解; (d)显示了图G的CRF模型的因子图图1:(a)——图G; (b)和(c)分别显示了可行解和不可行解; (d)显示了图G的CRF模型的因子图

成本函数c : E → R由模型参数θ表征,在以前的工作中[33,13,12],成本函数定义为log (1-pe/pe) ,其中pe表示ye被切割的概率。给定边e上的一个特征fe,pe采用逻辑斯蒂形式

我们在训练数据上通过最大似然估计得到最大概率模型参数θ;fe可通过一些从单独训练的深度网络中提取的深度特征表示来获得。例如,在[12]和[39]中,fe分别从卷积神经网络和Siamese网络中获得。

这项工作的核心在于以下几个问题:第一,如何联合优化图分解问题的模型参数θ和底层深度神经网络的权重?第二,如何利用循环一致性约束作为监督信号,并在训练过程中捕捉输出随机变量间的依赖关系?下面,我们将介绍我们的端到端可学习框架,它为这些研究问题提供了解决方案。

3.2 无约束二进制三次问题

我们观察到最小成本多割问题可等效表示为常数C∈N足够大的无约束二进制多线性规划。

在G是完全图的特殊情况下,每个3循环都是无序的。因此,式3特化为式4所述的二进制三次方问题,其中y¯vw :=1 - yvw。

通过将C设置得足够大,式4中的第二项等于0,且满足式2中定义的循环一致性约束。

3.3 多割为条件随机场

无约束二进制三次问题(式4)可用一元势的条件随机场表示,一元势在每个边变量上定义,高阶势在每三个边变量上定义。更具体地说,我们在我们想预测的变量X=(X1,X2···,X{| E |})上定义了一个随机场。I是观察结果,如图像。我们将每个随机变量x_i与等式4中的边变量ye关联,且随机变量x_i从标签集{ 0, 1 }取值。现在,优化问题(式4)可表示为以下CRF模型:

其中E(x | I)是以观测I为条件的构型(configuration)x的能量,我们的目标是获得一个具有最小能量的标记,即ˆx∈argminxE(x | I)。

这种标记是由E(x | I)定义的吉布斯分布

equation?tex=P%28%5Cmathbf%7BX%7D%3D%5Cmathbf%7Bx%7D+%5Cmid+%5Cmathbf%7BI%7D%29%3D%5Cfrac%7B1%7D%7BZ%28%5Cmathbf%7BI%7D%29%7D+%5Cexp+-E%28%5Cmathbf%7Bx%7D+%5Cmid+%5Cmathbf%7BI%7D%29 的最大后验(MAP)解,其中Z(I)是分割函数.

一元势(e unary potential)

equation?tex=%5Cpsi_%7Bi%7D%5E%7BU%7D%5Cleft%28x_%7Bi%7D%5Cright%29 对应于式4中的第一项,测量被割边的逆似然。它可以采取任意形式。如第4节所示。在执行多人姿态估计任务时,

equation?tex=%5Cpsi_%7Bi%7D%5E%7BU%7D%5Cleft%28x_%7Bi%7D%5Cright%29利用soto CNN的输出[ 5 ]。

高阶项

equation?tex=%5Cpsi_%7Bc%7D%5E%7B%5Ctext+%7BCycle%7D%7D%5Cleft%28%5Cmathbf%7Bx%7D_%7Bc%7D%5Cright%29 是本文的重要贡献之一。引入它们来模拟最小成本多割问题中的循环不等式(式2),并对应于式4中的第二项。在初始图中,每个高阶势将一个代价与一个循环相关联。其基本思想是,对于图中的每个循环,如果循环中的当前边标记违反了循环一致性约束,则将产生较高代价。

基于模式的势(Pattern-based Potentials)

图中的3-循环有效边标号是有限的。图1显示了有效(1-1-0)和无效(1-0-0)边标签的简单图和示例。为给无效/有效循环分配高/低成本,我们利用了[21]中提出的基于模式的势。

where Pc is the set of recognized label configurations for the clique, namely, valid cycles in the initial graph. We assign a cost γxc to each of them. γmax is then assigned to all the invalid label configurations for the clique, namely, invalid cycles in the initial graph.

推断

我们采用平均场推断来最小化公式5中定义的能量,该公式已被表述为一个递归神经网络,并整合到CNN框架中[45]。对于平均场推断,我们引入了一个在随机变量上定义的替代分布Q(x),以最小化Q(x)与真分布P(x)间的KL散度。一般平均场更新如下[20]:

这里,Xc是clique c中所有变量的配置,X_{c-i}是除x_i外的clique c中所有变量的配置。考虑到公式6中基于模式的势的定义,我们的CRF模型的平均场更新可从[41]的工作中推导出,如下所示:

其中,xj代表除xi外的clique c中的一个随机变量,Pc|i=l是Pc的子集,其中xi=l. t表示平均场推断的第t次迭代。假设L是定义在平均场推断得到的结果上的损失函数值,式8允许我们将误差∂L/∂Q反推到输入x及参数γxc和γmax。

注意,平均场推断不能绝对保证获得有效的图分解,因为平均场推断加强了循环一致性的有效性,但不能保证满足所有硬约束(例如2)。因此,在实践中,我们借助于一些快速的启发式方法(如[17])在平均场推断后返回一个可行的图分解。

学习

虽然平均场更新(等式8)不能保证所有硬约束(例如2)都得到满足,但它允许我们反向传播错误信号,这有助于端到端的学习机制。更具体地说,我们现在能够通过将原始优化问题重新表述为CRF模型来联合优化深层特征表示和执行图划分的参数。具体地说,所提出的模型可以通过反向传播联合学习以下参数:

–W是前端深度神经网络的权值

–θ表征最小成本多割问题中的成本函数c:E→R

-由CRF模型的高阶势引入γxc和γmax

通过联合训练,利用所提出的高阶势函数,将优化变量间的依赖关系引入到学习中,以获得更好的深层特征表示。

方法一:训练Siamese网络

获得任意两幅图像间相似性度量的一种直接方法是训练一个Siamese网络,该网络以一对图像作为输入,并对图像对指示相同或不同的数字进行概率估计。

我们使用LeNet[23]的体系结构,该体系结构通常用于数字分类任务。图2示出两个示例结果。在图2(a)中,上/左对和左/右对是相同数字的概率分别为0.94和0.85,这是正确估计的。但是对于右上角对,它是0.47,这可能是因为类内差异很大。图2:MNIST数字上独立Siamase网络产生的不一致边标签示例。

类似地,对于图2(b)中的示例,上/右对是相同数字的概率被错误地估计。

当我们将这些数字分成簇时,错误估计的相似性度量会引入无效循环。现在的问题是,我们是否可以利用这种循环约束来学习一个更好的Siamase网络,从而产生更健壮和一致的相似性度量。

方法二:联合训练Siamase网和CRF

在这种方法中,我们的目的是通过考虑循环一致性约束来训练Siamase网络。

我们将分割问题转化为CRF中定义的能量最小化问题(式5)。具体来说,我们在Siamase网络的顶部添加了一组定制的CRF层,这些层执行迭代平均场更新(定制的CRF层由[45]介绍,详细信息见在4.2)。现在我们可以联合训练Siamase网络和CRF模型了。对于图2(a)中的示例,使用端到端学习的Siamase网络,顶部/右侧对指示相同数字的概率增加到0.56,并且在使用联合学习的CRF参数进行平均场更新后,该概率进一步提高到0.61。在整体性能上,由Siamase网络直接产生的相似性测度的准确率由91.5%提高到93.2%。最终聚类准确率由94.1%提高到95.9%。

尽管概念上简单,基于LeNet的Siamase网络和定制的CRF层能够联合学习,并在MNIST数字聚类任务中产生更加健壮和一致的结果。下一个开放的问题是如何为依赖集群的具有挑战性的现实世界视觉任务设计一个端到端可学习的框架。

4 多人姿态估计的端到端学习

在这一部分中,我们进一步设计了一个端到端可学习的框架来完成具有挑战性的多人姿态估计任务。网络由四部分组成:1)输出特征表示的前端CNN(第4.1节);2)两个全连接层,将特征转换为unary potentials(第4.1节);3) 执行迭代平均场更新的自定义(定制化)层堆叠(第4.2节;)4) 平均场迭代顶部的损失层(第4.3节)。

我们选择多人姿态估计任务是因为它是理解自然图像中人的基本问题之一。最近的工作[11,33,5,12]在深度特征学习的驱动力下取得了显著进展。比如[5] 提出了一种强大的深层神经网络来学习人体关节和四肢的特征表示,然后提出了一种快速的启发式匹配算法,将人体关节与个体姿势关联起来。鉴于[5]在公共基准测试中的表现,下面,我们利用他们的预训练网络作为前端CNN。我们的模型是对[5]的补充,重点是深度特征学习和检测关联的联合优化。

4.1. 从CNN到Unary Potentials

网络体系结构

[5]中提出的网络在共享相同的基本卷积层后有两个独立分支:一个分支预测14个身体关节的置信图,另一分支估计一组部分亲和力场,编码关节到关节的关系。Part field是二维矢量场。更具体地说,亲和力场中每个像素与估计的2D矢量相关联,该矢量对从一个关节指向另一关节的方向进行编码。在[5]中,part field仅对遵循人体运动学树的关节对实现,例如从左肘到左手。然而,为了合并相邻关节间的高阶势,我们训练模型也捕捉跳跃连接之间的特征,例如肩到手腕。

图的构造

在给定一幅输入图像的情况下,首先从检测置信图中提取候选的人体关节。对于每种类型的关节,我们保留了多个检测假设,即使是对于那个些距离很近的关节。然后,我们对描述同一类型身体关节的假设对插入边,并在两个不同关节间插入对假设的方法来执行检测图。注意,虽然构造的图不是完全连通的,但是图中的每个chordless(无弦?)环都只有三条边。

边特征

鲁棒图分解的关键是在边上建立一个可靠的特征表示,以指示相应的联合检测是否属于同一个/不同的人。对于连接不同体型检测假设的边缘,采用相应的局部场估计。更具体地说,我们计算由边的方向定义的单位向量和由部分字段估计的向量之间的内积,通过沿边定义的线段均匀采样来收集10个值。这些值构成对应边的特征fe。对于连接同一关节类型检测假设的边,我们简单地用检测点之间的欧氏距离作为特征。更好的方法是为网络设计另一个分支[5],以预测同一类型的两个检测是否描述了同一个人;我们将这一点留待将来的工作。

Unary

equation?tex=%5Cpsi%5E%7BU%7D

从边特征fe构造一元势

equation?tex=%5Cpsi_%7Bi%7D%5E%7BU%7D%5Cleft%28x_%7Bi%7D%5Cright%29 (Eq. 5)是很简单的。我们结合两个完全连通的层对特征进行编码,对边被切割后的特征进行分类,即对应的两个关节属于不同的人。如3.3所述,在训练过程中,我们可从平均场更新中获得误差信号,学习新引入的全连接层和产生边特征的前端CNN的参数。

4.2 平均场更新

[45]提出将平均场迭代法表示为递归神经网络层,并将其进一步扩展为包含高阶目标检测和超像素势的语义分割任务。我们遵循他们的框架修改了我们基于模式的势。平均场迭代的目的是更新边分布

equation?tex=Q_%7Bi%7D%5E%7Bt%7D%5Cleft%28x_%7Bi%7D%3D%5Cright.l%29

这相当于在每个连接的所有可能标签上对负一元(Unary)能量应用softmax函数。该操作不包含任何参数,误差可反向传播到前端卷积层或全连接层,其中一元势来自该层。

一旦边际值被初始化,我们根据式8计算高阶势。具体来说,Pc中的有效cliques是0-0-0、1-1-1和1-1-0,而无效cliques是0-0-1,其中1表示相应的边被切割。这个运算对于式8中引入的参数γxc和γmax是可微的,允许我们通过反向传播优化它们。这些错误也会流回Q^1(X)。得到高阶势后,用一元势求和,然后用softmax函数归一化求和,生成下一次迭代的新边界。通过叠加这一基本运算,可以有效实现多个平均场迭代。在推断过程中,由于平均场推断不能绝对保证原优化问题的可行解,我们使用文献[5]中提出的快速启发式算法作为附加步骤来返回可行集。

4.3 损失与训练

在训练过程中,我们首先用标准L2损失训练联合置信度图和部分亲和力场图,如[5]所述。一旦学习了基本特征,下一步就是用softmax损失函数训练一元函数。这是以动态方式执行的,这意味着先对身体关节的检测假设进行估计,然后在训练期间建立假设之间的联系。他们的基本ground truth标签也同时在网络上生成。最后一步是以端到端的方式训练具有softmax损失函数的高阶势CRF的参数以及基本卷积层和全连接层。

4.4 实验

数据集

我们使用 MPII 人体姿态数据集,它由大约 25000 幅图像组成,总共包含大约 40000 个带注释 的人。分别有 3844 人和 1758 人参与了训练和测试。我们在一个有效的验证环境上进行消融实验。测试期间没有提供关于人数或个体规模的信息。对于最终的关联评估,我们使用[33]提出的评估度量 计算图像中所有人的联合检测的平均精度。在下面的实验中,我们使用身体关节的捷径(头-H,颈-N, 肩-S,肘-E,腕-W,髋-Hi,膝-K,踝-A))。

实施细节

前端有CNN架构有几个堆叠的全卷积层,输入大小为 368x368,如[5]所述。我们使 用大小为 12 的batch训练基本的CNN,学习率为 1e-4。CRF的学习率则为 1e5。整个架构在 Caffe [14]中实现。表1:边际分布更新。数字代表不同肢体类型的边际概率随平均场迭代的演化。

Table 1: Marginal distribution updates. Numbers represent evolution of the marginal probabilities along with the mean-field iterations for different type of limbs.

CRF推理的有效性

为了证明平均场层近似CRF推断的有效性,我们评估了随机变量的边际分布的演变。对于姿态估计,CRF中的每 个变量 Xi 代表两个身体关节间的联系。表1描绘了7种不同类型的肢体。这些数字是 那些连接的平均边际概率,其ground 是不被切断。它衡量一个连接被认为是有多自信,即,两 个关节属于同一人的信心。如表中所示,所有肢体的边缘分布受益于高阶势,即使对于非常具有挑 战性的组合,如肘-腕和膝-踝。经过三次推断,更新收敛了,我们为进一步的实验修正了这个setting。表2:无效循环的比率。数字(%)表示为相邻身体关节定义的四种不同类型的cliques的无效循环比率。

循环约束的有效性

如表4,无效的3团类型为link-link-cut。在CRF推断下,无效循环的比率降低,表明高阶势的有效性。

端到端学习对特征表示的好处

联合训练CNN和CRF的一个主要优点是获得更好的特征表示。我们通过在平均场推断前后直接可视化part field特征图来说明这一点。如图3所示,置信图总体上变得更清晰,特别是对于严重遮挡的图像;例如,在第二行的第二幅图像中,部分被遮挡的人的肢体变得更可辨,这表明对于具有挑战性的情况,特征学习有显著的改进。这与本研究的一个假设是一致的:深层特征需要来自高阶项的额外监督信号,尤其是对于具有挑战性的案例。

返回一个可行解

经过CRF推理后,不能直接得到有效的图分解。为了有效生成分解,需要再运行一些启发式方法(贪婪搜索[5]或KL启发式[12])。我们用三种不同的设置来评估这两种启发式方法:1)只有前端CNN和全连接层(一元);2)在前端CNN和全连接层(一元和CRF)上训练CRF;3)整个网络的端到端finetuning。表3第对验证集进行了分析,我们可看出端到端策略作为后处理方法相对于CRF离线训练的优势。如图4所示,3)主要在具有严重遮挡的具有挑战性的情况下实现改进,这得益于对感兴趣变量间的高阶依赖性进行建模。表3:验证集上的多人姿态估计结果。

与其他算法比较

在MPII人体姿态数据集上进行测试,结果如表4所示。我们的端到端方法实现了76.1 mAP,与其他sota是相当的。请注意,[26]中提出的方法使用单人姿势估计器来细化最终结果,[9]是一种自上而下的方法,它使用了更快的R-CNN[34]人检测器。

5 结论、局限性和今后的工作

在这项工作中,我们的目标是回答以下研究问题:(1)对于图分解问题,如何联合优化模型参数和底层深层神经网络的权值?(2) 如何利用循环一致性作为监督信号,在训练过程中捕捉输出随机变量的相关性?为此,我们建议将最小成本多割问题转化为定义在CRF上的能量最小化问题。将多割问题的硬约束表示为参数可学习的CRF的高阶势函数。对数字图像聚类和多人姿态估计任务进行了分析。实验结果验证了该方法的有效性,并对特征学习和最终的聚类任务进行了改进。

不过,多割问题的学习方仍有一些局限性。首先,利用所提出的平均场更新,我们可以共同学习前端深层网络和图分解的参数。然而,优化问题中的硬约束并不能保证得到满足。因此,在测试过程中,我们求助于高效的启发式解算器来返回一个可行的图分解。其次,对于多人姿态估计任务,我们在特征学习和循环不等式的有效性方面有了显著的改进,但是姿势关联的最终性能增益并不支持我们优于最先进的top-down方法。一个原因是当前的评估指标倾向于top-down方法。另一原因是,我们的端到端培训只针对部分亲和力领域,而不是身体关节检测,这对最终结果至关重要。将人体关节检测纳入端到端训练流水线是一个实用的未来方向。然而,我们认为这项工作为图分解问题的工具箱增加了一个重要的primitive,并为将来的研究开辟了许多途径。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值