多视图分类）View-GCN：View-based Graph Convolutional Network for 3D Shape Analysis

最新推荐文章于 2025-02-26 15:30:08 发布

楠辰小辉

最新推荐文章于 2025-02-26 15:30:08 发布

阅读量4k

点赞数 2

文章标签：计算机视觉人工智能深度学习

原文链接：https://github.com/weixmath/view-GCN

版权

简介

2020-CVPR
版权：
在这里插入图片描述

论文

abstract

基于多视图的方法通过其投影渲染生成的二维图像来识别三维形状，在三维形状识别方面取得了最先进的成果。基于视图的方法所面临的主要挑战是如何将多视图的特征聚合成一个全局形状描述符。在这项工作中，我们提出了一种新的基于视图的图卷积神经网络，被称View-GCN，用于识别基于灵活视图配置的多视图的图形表示的三维形状。我们首先构建了以多个视图为图节点的视图-图，然后在视图-图上设计了一个图卷积神经网络，考虑到多个视图的关系，分层次地学习具有判别性的形状描述符。视图神经网络是一个基于局部和非局部图形卷积的特征转换和选择性视图取样的图形粗化的层次网络。在基准数据集上的广泛实验表明，view-GCN在三维形状分类和检索方面取得了最先进的结果。

1. Introduction

三维形状识别是计算机视觉的一个重要研究领域。三维形状，包括真实的扫描物体或CAD物体，比从单一视角捕捉的二维图像保留了更丰富的几何和形状信息以供识别。三维形状识别在自动驾驶[40]、考古学[44]、虚拟现实/增强现实[17]等应用中起着关键作用。近年来，在三维形状分析方面取得了巨大的进展。

根据三维形状的表示，这些方法可以分为三类，即基于体素的方法、基于点的方法和基于视图的方法。基于体素的方法通过三维欧几里得空间中的体素集合来表示三维形状，然后在体素上建立神经网络来学习识别的特征[37, 51]。尽管这些方法在性能上很有效，但它们通常都有一些挑战，包括计算复杂性、体素分辨率以及由形状表面的体素化引起的数据稀疏性。基于点的方法直接在点云或网格上定义网络。PointNet[7]是一个简单但强大的深度架构，它将点位置作为输入。之后的方法，如PointNet++[42]、SpiderCNN[52]、PointCNN[32]、RS-CNN[33]等，在三维形状识别方面取得了更好的性能。基于视图的方法[8, 15, 20, 27, 28, 41, 47, 50, 54]是基于多视图特征的聚合，用于识别基于多视图二维图像的形状类别。它们是通过利用二维图像分类网络的优势进行三维形状识别的最先进方法之一。这项工作的重点是基于视图的方法。主要的挑战是如何将多视图特征聚合成一个全局的三维形状描述符。传统的方法[47,48]通过最大集合（max-pooling）来聚合多视图特征，这种方法是不变的，但忽略了视图之间的关系。将多个视图作为一个序列，RNN已经成功应用于融合多视图特征[8，20，34]。View-gram[23]和3d2seqviews[19]也将多视图作为一个序列，并使用卷积和注意力来研究视图的关系，以学习形状描述符。一维序列表示法可以很好地模拟摄像机依次位于物体周围一圈的配置。然而，对于一般的配置，例如十二面体上的摄像机，一维序列忽略了多视图的三维几何。RotationNet[28]和EMV[13]都探索了更普遍的视图配置，分别通过旋转和应用旋转组卷积找到最佳姿势，然而，它们都依赖于视图配置的同质空间假设（例如，二十面体）。在这项工作中，我们提出了一种灵活的三维形状多视图的视图图表示方法，每个视图对应于一个具有视图特征的图节点。节点之间的图边是由相机坐标的k-近邻决定的。
在这里插入图片描述
如图1所示，我们在视图图上设计了一个新颖的图卷积网络（GCN）来聚合多视图特征以学习全局形状描述符。这种基于视图图的表示方法的主要优点如下。首先，它可以灵活地模拟不同的视图配置，例如，摄像机位于圆形、十二面体的角上，甚至是物体周围的不规则位置。其次，通过使用视图图表示，我们可以利用GCN的优势，考虑到图形节点的关系来聚合多视图特征。沿着这个思路，我们提出了一种新型的视图图上的GCN，称为视图-GCN，来学习三维形状描述符。视图图的每个节点都配备了由骨干二维图像分类网络提取的特征。所提出的view-GCN是一个分层的GCN架构，在越来越粗的view-graphs上有多个层次。在每个层次中，我们设计了一个本地图卷积操作和一个非本地消息传递操作，通过调查相邻视图和长距离配对视图之间的关系来聚合多视图特征。对于图的粗化，我们开发了一种选择性的视图采样策略，通过视图选择器对代表性的视图进行采样。所有在不同层次上学习到的特征被合并为一个全局形状描述符。通过对三维数据集的形状分类和检索进行评估，view-GCN取得了最先进的性能，例如，在ModelNet40[51]上，每类分类精度为96.5%，每例分类精度为97.6%；在ShapeNet Core55[46]上，微观平均检索精度为78.4%，宏观平均检索精度为60.2%。它在真实的多视图数据集RGBD[31]上的表现也优于目前最先进的方法。

2. Related Works

2.1 Multi-view 3D shape recognition

基于视图的方法对三维形状识别是有效的。MVCNN[47]依靠二维图像分类网络来提取多视图特征，然后通过最大池聚合来获得一个紧凑的形状描述符。一些作品考虑了先进的特征聚合策略。GVCNN[15]和RCPCNN[50]都将多视图特征分组，并在视图组上设计特征池。MHBN[55]和RN[53]通过协调的双线性集合和关注来聚集多视图斑块的特征。RN[53]进一步对一组视图的关系进行建模，并使用关系分数将其整合到形状描述符中。另一个有趣的策略是探索视图的旋转。RotationNet[28]在预测形状标签时将视图指数作为潜变量来寻找最佳姿势。EMV[13]是基于旋转组的一个离散子组，并将组卷积应用于视图的同质空间，例如二十面体。最近，有几项工作将多个视图表示为一个序列。3D2SeqViews[19]和VNN[23]在一个圆形轨迹中对连续的视图子序列应用视图卷积，然后通过注意力聚集特征。在VERAM[8]、Point2Sequence[20]和Ma等人[34]中，序列视图由RNN（例如GRU或LSTM）来选择和（或）聚合。与他们相比，我们用视图图表示一个三维形状的多个视图。视图图表示使我们能够设计GCN，通过研究视图的关系来聚合多视图特征。这种视图图表示比顺序表示[19, 23]和视图与视图之间的关系[53]更通用。

2.2 Graph convolutional networks

图卷积网络[6, 10, 24, 29]是分析图数据的强大工具。Spectral GCNs[6, 10, 24]通过图拉普拉斯的频谱表示图。他们设计了诸如多项式变换[10]和卷积[6, 24]等基于谱系表示的变换。为了减少计算开销，[10]用切比雪夫多项式来逼近特征德构成。最近的GCNs[12, 18, 45]通过聚集图上局部邻域的节点特征进行空间卷积，例如[29]的GCN，GraphSAGE[18]。图形注意力网络[49]使用注意力为邻域的不同节点指定不同的权重。信息传递网络[16]是基于边缘嵌入来累积来自邻接节点的信息以更新节点特征。类似的想法在递归关系网络[45]中被利用来进行关系推理。在[4，36]中，局部不规则点通过角度和径向分仓被量化到规则网格中，在此基础上可以定义规则的二维卷积。在我们的工作中，我们用一个视图图表示一个三维形状的多个视图，并在视图图上定义GCN。这是GCN的一个新的应用。我们的视图GCN受到当前GCN的启发，但经过精心设计，用局部和非局部操作分层聚集多视图特征，并采用新颖的选择性视图取样策略进行图形粗化。实验和消融研究证明了我们的View-GCN在三维形状识别方面的有效性。

3. Overview of Our Approach

3.1 Motivation

如图3（a）所示，
在这里插入图片描述
一把椅子的相邻视图在姿势和外观上有平滑的变化，而一个杯子的多个视图则几乎相同。这为识别提供了判别信息。此外，成对的视图也是相关的，例如，图3（b）中成对的视图是对称的。多视图图像之间的这些关系编码了物体的潜在几何形状，为识别三维物体提供了有价值的信息。列举和模拟所有可能的视图之间的关系是具有挑战性的，但这种现象启发我们设计一个图卷积网络，在聚合多视图特征时自动研究视图之间的关系。

3.2 General pipeline

我们设计了一个新颖的基于视图的图卷积网络，被称为View-GCN，通过图卷积的方式，考虑到视图的关系，分层聚合多视图的特征。如图2所示，我们的方法包括三个部分。
在这里插入图片描述
首先，通过骨干网络从一个三维物体的多个视图中提取多视图特征，然后我们建立一个由视图特征代表的节点的视图-图。其次，我们设计了一个GCN，将多视图特征分层聚集在视图-图上，生成一个全局形状描述符。最后，全局形状描述符被用于形状识别。

4. From 3D Shape to View-Graph

现在我们介绍如何构建一个三维形状的视图-图。我们建立一个有向图G，第i个节点为第i个视图，相机坐标为v_i。这个图被称为视图-图，那么视图图的邻接矩阵S∈R^N×N为
S_ij = Φ(g_ij ; θ_s) (1)
在这里插入图片描述

其中g_ij= [v_i, v_j , v_i - v_j , ||v_i - v_j||₂]∈R¹⁰代表两个视图的空间关系，[ ]表示元素的矢量连接。Φ是一个非线性嵌入，参数θ_s为成对的节点。在实施中，我们将Φ设定为三层MLP，前两层为LeakyReLU和10个隐藏单元，它输出一个标量S_ij。我们进一步使用k-nearest neighbor（kNN），利用坐标距离找到每个节点的固定数量的相邻节点，并且只保留相邻节点之间的边。因此稀疏邻接矩阵A的元素为
在这里插入图片描述
其中Ⅱ(-)是一个二进制函数，表示v_j是否在v_i的kNN内。显然，视图-图可以代表不同的视图配置，例如，如图4所示的圆形、十二面体、不规则配置，其中每个三维矩形代表一个视图。

5. View-based Graph Convolutional Network

overview

View-GCN是一个定义在多级粗化视图-图上的分层结构。最初，视图-图G₀定义在所有的输入视图上，每个视图都有一个提取的视图特征向量，如5.1节所述。
在这里插入图片描述
如图5所示，在第l层，视图-图G^l有N^l个节点，也就是视图。在视图-图上，我们通过局部图卷积和非局部信息传递来连续更新节点特征。然后，通过我们提出的选择性视图采样策略粗化图G^l，构建下一级视图-图G^l+1，以增加感受野，有利于语义特征学习。所有级别的特征被融合成一个全局形状描述符。与在一次集合操作中合并所有多视图特征的max-pooling相比，我们的view-GCN考虑到视图的关系，在分层粗化的视图图上逐步合并多视图特征，并且所有级别的特征都被用于形状描述符中。

5.1 Initial view feature extraction

给定N个视图{I_i}_i=1^N ，特征{f_i⁰}_i=1^N由一个微调的二维图像分类网络提取，例如ResNet-18[21]在ImageNet[11]上预先训练过。该网络对所有训练的三维物体的多视图二维图像进行微调，在最后一个FC（全连接）层之前，不同视图的特征被矢量化为视图特征，作为G⁰中节点特征的初始化。

5.2 Local graph convolution

给定一个具有N_l个节点（即视图）的第l层视图-图G^l，节点特征在F_in^l的行中，本地图卷积层被定义为通过考虑由相机坐标的kNN确定的相邻节点之间的关系来更新节点特征。给定特征矩阵F_in^l∈R^Nl×d，局部图卷积定义为:
在这里插入图片描述
其中A^l代表图G^l的可学习的N_l×N_l邻接矩阵，如公式（2）所定义，W^l∈R^d×d是可学习的权重矩阵，Ψ是由Batch Normalization[26]和LeakyReLU[35]组成的非线性变换，参数为θ_c^l，因此输出F^l仍为R^Nl×d。利用公式(3)，输入节点特征首先通过邻接矩阵A^l进行扩散，然后通过线性变换W^l对每个节点进行更新，接着进行非线性变换。F^l的行数是更新的节点特征。

5.3 Non-local message passing

在局部图卷积之后，F^l中的特征被送到非局部的消息传递操作中，以捕捉视图-图G^l中节点之间的长距离关系。我们将节点v_i到v_j的消息定义为一对关系[38, 45]：
在这里插入图片描述
其中f_i^l∈R^d是第i个节点的特征，即F^l的第i行，[-, -] 表示两个向量的连接。Γ是一个关系函数，参数为θ_m^l，旨在探索图中任何成对视图之间的关系。我们把它设计成一个三层的MLP，每层有d个隐藏单元和LeakyReLU，它输出的消息m_ij∈R^d。我们进一步收集图中所有节点i的消息，然后通过融合累积的消息r_i^l和原始特征f_i^l来更新节点特征，即:
在这里插入图片描述
Ω是一个融合函数，参数为θ_f^l。它被设计为一个单层MLP，在实现上采用批量归一化，并输出第i个节点的融合特征fˆ_i^l∈R^d。非本地信息传递操作输出特征矩阵Fˆ^l，其行数为公式（5）中的节点特征。根据公式（5），节点特征的更新考虑了整个图的成对关系，因此更新的特征可以包括来自远处的视图的信息，而不是本地图卷积中的本地相邻视图。

5.4 Selective view-sampling for graph coarsening

在更新了第l层视图-图G^l的节点特征后，我们再对图进行粗化，得出第（l+1）层的视图-图G^l+1。图的粗化广泛地由GCN中的最远点采样（FPS）实现[42]，它对视图的一个子集进行采样，以建立一个粗化的图来扩大GCN的感受野。我们设计了一种新的选择性视图采样策略，用于图形粗化。考虑到在当前图G^l上具有摄像机坐标{v_i^l}N_i=1^Nl的输入视图和采样率s，FPS迭代采样一个具有摄像机坐标{v_j}的视图子集。
在这里插入图片描述
其中[ ]是一个舍入函数。FPS对每一个新的视图进行采样，与基于摄像机坐标的已采样的视图集的距离最大。通过FPS采样可以保持视图的多样性，但不能保证采样的视图对下游的判别学习任务具有代表性。为了利用FPS对不同的视图进行采样，同时克服其缺点，我们提出了一种选择性的视图采样策略，用视图选择器在FPS采样的视图附近选择一组有代表性的视图。如图5的底部所示，我们首先对一个视图子集{v_j}_j=1^Nl+1进行采样，由FPS作为初始化。通过FPS给定一个具有摄像机坐标v_j的初始视图，然后我们通过视图选择器在这个初始视图的kNN视图上选择一个采样的视图，新采样的视图在本地邻域对视图选择器有最大响应。然后，取样视图的相机坐标向量为:
在这里插入图片描述
对于j = 1, … , N_l+1。V (-) ∈R^Nc是具有参数θ_v^l,j的视图选择器，输出属于Nc形状类的视图的概率，max操作符表示向量中的最大值。视图选择器是为不同的取样视图j∈[1, N_l+1]和以l为索引的图层分别定义的。为简单起见，视图选择器V被定义为具有d/2个隐藏单元的两层MLP，其参数是根据5.6节中的训练损失学习的。通过这种策略，我们得出了一个粗化图G^l+1，图的节点
{v_j^l+1 }_j=1^Nl+1由视图选择器选择。在公式（5）中的非本地消息传递后，每个图节点都附有相应的更新的视图特征，这些特征可以表示为特征矩阵F^l+1中的行，作为下一级l+1的输入节点特征。视图选择器是view-GCN的可学习组件，每个视图选择器都可以作为一个视图模板，通过学习可以在本地相邻的视图中选择有辨识度的视图。

5.5 Hierarchical network architecture

在这里插入图片描述
如图5所示，一个级别的view-GCN是由连续的局部图卷积、非局部消息传递和选择性的视图采样组成。对于l级viewGCN，它将多视图的特征嵌入到图G^l上，在视图数量较少的粗化图G^l+1上输出更新的特征。如图2所示，我们将多级view-GCN串联起来，成为一个分层的深度架构。为了保留层次结构中的所有形状特征，在每个层次中，我们对通过局部图卷积更新的节点特征进行最大池化，成为一个池化的降级，最终的全局形状特征是所有层次中所有池化特征的串联。
在这里插入图片描述
F=[F0全局，---，F L-1全局]，
它被送入训练损失。我们接下来介绍两个版本的具有典型多视图配置的view-GCN。在所有的网络中，d=512，s=0.5，对于不同的形状，FPS总是从第一个图形节点，即视图开始。

12个视图的圆形配置的view-GCN。如图4(a)所示，虚拟摄像机被有规律地放置在一个圆形轨迹上，并围绕直立方向抬高30度。一个三维形状的12个视图构建了一个具有12个节点的视图图，k=2为kNN。视图图被粗化了两次，然后视图GCN是一个具有12、6和3个节点的视图图的层次结构。

20个视图的十二面体配置的view-GCN。如图4（b）所示，我们将虚拟摄像机放置在包括物体在内的十二面体的顶点上。将20个视图特征作为一个具有20个节点和k=3的kNN的视图图。view-GCN是在视图图层次结构上定义的，分别有20、10、5个节点。

5.6 Network training

训练损失:整个训练损失函数由形状损失L_shape和视图损失L_view组成。给定全局形状特征F，它被发送到分类器C，该分类器有一个FC层，其权重W_c∈R^Ld×Nc，然后是一个softmax层。总的训练损失是
在这里插入图片描述
其中y是形状的类标签，L_shape是基于全局形状描述符F的交叉熵损失，L_view是为视图选择器定义的交叉熵损失，强制要求每个视图选择器可以根据视图的局部邻域的视图特征来区分形状类别。

可训练的参数:可训练的网络参数用Θ表示，包括W^l、θ_s^l、θ_c^l、θ_m^l、θ_f^l、θ_v^l,i，在view-GCN的不同操作中，l = 0, …, L-1;i = 1, …, N_l，以及分类器C中的W_c。对于20个视图版本的view-GCN，它有7340万个参数需要学习，包括ResNet-18（骨干视图特征提取网络）的4480万个参数和我们view-GCN的2860万个参数。骨干网络的参数也是经过函数调整的。

训练方法:我们分两步训练view-GCN，类似于[48]。首先，预先训练好的视图特征提取器，例如ImageNet上的ResNet-18[11]，在所有多视图二维图像上进行微调以进行分类，如第5.1节所述。其次，我们通过端到端训练整个架构，包括骨干视图特征提取器和view-GCN在训练三维形状上进行形状识别。损失的梯度与view-GCN和view特征提取网络的参数有关，可以通过PyTorch[39]实现的自动分化计算出来。训练细节。在微调视图特征提取网络时，我们使用SGD优化器，动量、权重衰减、批次大小、历时数和初始学习率分别为0.9、10-2、400、30、10-2。每10个epochs的学习率就减少一半。当训练整个架构时，我们也使用SGD优化器，并将学习率改为10-3，在15个历时中运行。每个批次包含20个形状，20个视图版本的view-GCN共有400个视图，12个视图版本的view-GCN共有32个形状，共有384个视图。按照文献[22]，我们使用了一个学习率预热策略，在第一个历时中学习率从0线性增加到10-3。然后，在一个余弦四分之一周期后，学习率被降低到0。
https: //github.com/weixmath/view-GCN

6. Experiments

我们对view-GCN在合成和真实数据集上的三维形状分类和检索进行评估，具体如下。

ModelNet40[51]。它由40个类别的12,311个三维形状组成，有9,843个训练对象和2,468个测试对象用于形状分类。不同类别的形状数量不同。

ShapeNet Core55[46]。它包含51,162个三维模型，分为55个类别，这些类别又分为203个子类别。训练、验证和测试集分别包括35764、5133和10265个形状。不同的类别有不同数量的对象。我们在 "正常 "数据集上进行评估，即所有的形状都被一致地对齐并规范化为一个单位长度的立方体。

RGBD[31]。这是一个真实拍摄的多视角数据集，包含了从多个视角拍摄的51个类别的300个家用物品的RGB和RGBD图像。每个物体都被放置在一个转盘上，摄像机在地平线以上大约30◦、45◦和60◦的位置进行升降。

6.1. Experiment for 3D shape classification

我们首先在ModelNet40上评估view-GCN的形状分类。使用NVIDIA GTX 1080 Ti GPU在ModelNet40上的第一和第二训练阶段分别需要3和6小时。我们与不同的3D物体分类方法进行比较，并主要关注基于视图的方法。分类结果列于表1。
在这里插入图片描述
我们在每个类别和每个实例的准确度上都取得了最高分。与MVCNN[47]、MVCNN-new[48]、MHBN[55]、GVCNN[15]和RCPCNN[50]等传统的视图集合方法相比，我们的view-GCN取得了明显更高的精度，每类精度超过3.4%，每实例精度超过2.6%。3D2SeqViews[19]、SeqViews2SeqLabels[20]、VERAM[8]和Ma等人[34]都利用了顺序视图上的关系。与他们相比，view-GCN研究了多视图特征在视图图层次结构上的关系，并将每类和每例的准确率分别提高了4.4%和3.9%以上。我们还与基于点、体素和混合表示的方法进行了比较，包括3DShapeNets[51]、VoxNet[37]、VRN Ensemble[5]、MVCNN-MultiRes[41]、PointNet++[42]、KdNetworks[30]、RS-CNN[33]，我们的view-GCN在两个精度上也优于它们5.1%和2.1%。在以前的方法中，RotationNet[28]通过旋转优化姿势并研究了不同的视图配置，取得了最先进的性能。为了公平比较，如表2所示，以相同的AlexNet作为视图特征提取的骨干网络和20个视图配置，我们的view-GCN取得了比RotationNet高0.8%的每个实例精度。
在这里插入图片描述

6.2 Experiment for 3D shape retrieval

ShapeNet Core55[46]是一个用于形状检索的具有挑战性的三维数据集。我们在20个输入视图上训练我们的view-GCN，用于形状分类，与ModelNet40的形状分类相同。对于形状检索，给定每个查询对象，所有具有相同预测类标签的对象首先被作为检索的形状，而检索排名是基于类标签预测的概率得分的排名。按照挑战[46]的要求，每个类别的前1000个检索对象被作为检索结果。我们将view-GCN与参加SHREC’17大型三维形状检索[46]的ShapeNet Core55的各种方法进行了比较，包括基于多视图的方法，如GIFT[2]、Improved-GIFT、ReVGG、MVFusionNet、CM-VGG55-6DB、MVCNN[47]和RotationNet[28]，以及基于体素的方法如ZFDR、DeepVoxelNet和DLAN。关于这些方法和准确度指标的更多细节，请参考[46]。如表3所示，我们的view-GCN在微观平均的P@N、R@N、F1@N、mAP和宏观平均的P@N、F1@N、mAP和NDCG方面取得了最高的精度。在这个数据集上，除了微观平均的NDCG，View-GCN在所有指标上都优于目前最先进的方法RotationNet。与其他方法如GIFT[2]、Improved-GIFT和MVCNN[47]相比，viewGCN也取得了明显更高的精度，例如，它比MVCNN高4.9%（在mAP中为microALL），MVCNN是一个对多视图特征进行最大集合的基准方法，而我们的view-GCN在视图图上分层聚集多视图特征。
在这里插入图片描述

6.3 Experiment on real multi-view image dataset

我们还在RGBD数据集[31]上评估了我们的view-GCN的形状分类，RGBD数据集是一个具有真实拍摄的多视角图像的数据集。我们使用与[28]相同的实验设置，即对于每个物体，我们均匀地拍摄12张RGB多视图图像，这些图像由相机在一个圆圈上拍摄，相机仰角为45◦。如表4所示，我们的view-GCNs在分类精度上取得了最佳结果。通过使用相同的AlexNet骨干网络，我们的view-GCN (AlexNet)在每个实例的准确率上比MVCNN (AlexNet) [47]高出5.8%。View-GCN(AlexNet)在准确率上也比RotationNet(AlexNet)[28]高出2.6%。我们的view-GCNs明显超过了MDSICNN[1]、MMDCNN[43]的性能，这些网络需要更多的RGB图像作为输入。使用更强大的骨干网络ResNet-18，view-GCN（ResNet18）达到了94.3%的最高精度。使用ResNet-18骨干网络的view-GCN比使用ResNet-50的效果略好。这些结果表明，viewGCN对于真实的多视图图像也有良好的效果。
在这里插入图片描述

6.4 Experimental analysis on view-GCN

接下来我们论证了view-GCN的每个组件对ShapeNet Core55[46]分类的影响。表5列出了view-GCN的各种架构的结果。所有的网络都以ResNet-18作为骨干网络。"基线 "是MVCNN-new[48]方法，它使用最大集合特征作为全局形状描述符。与之相比，我们的view-GCN的每类准确率达到79.8%，每例准确率达到90.9%，而 "Baseline "则为76.7%和88.9%。通过从view-GCN中去除局部图卷积，view-GCN（w/o LGC）在两个精度上分别比完整版低1.0%和0.3%，达到78.8%和90.6%。没有非本地消息传递的view-GCN，即view-GCN（w/o NLMP），在每类和每例的准确率上分别低2.1%和0.4%。它们表明了我们的网络模块的积极贡献。选择性视图取样与FPS。为了评估选择性视图取样的效果，我们用简单的FPS（View-GCN-FPS）代替选择性视图取样来进行图形粗化。如表5所示，与使用FPS的view-GCN相比，使用选择性视图取样的view-GCN在每类和每例的准确率上分别提高了1.6%和0.6%。我们还对未对齐的ModelNet40[51]进行了同样的实验，我们的viewGCN与使用FPS的view-GCN相比，在两个精度上分别提高了0.9%和0.8%，这证明了选择性视图采样策略对于选择代表性视图进行图形粗化的有效性。视图损失的影响。我们进一步评估了视图损失Lview的影响，如第5.6节所述，Lview是用来执行视图选择器的判别能力的。通过在没有视图损失Lview的情况下训练相同的网络，view-GCN（无视图损失）获得的分数略低（在两个精度中分别低0.1%和0.2%），表明即使没有明确施加视图损失，view-GCN可以学习视图选择器的参数，在两个精度中仍然比使用FPS的图形粗化高1.5%和0.4%。学习亲和矩阵的效果。对于每个级别的视图，我们通过公式（2）学习邻接矩阵。为了证明其必要性，我们比较了view-GCN-A1和view-GCN-A2的基线，其亲和矩阵的元素分别定义为Aij = I{vj∈N (vi)}，和Aij = e-vi-vj 2 -I{vj∈N (vi)}。与两个基线相比，View-GCN在括号内的两个精度上分别实现了（0.6%，0.2%）和（0.7%，0.4%）的改进。分层结构的影响。我们对20个输入视图的view-GCN是在一个有20、10、5个节点的视图图的层次结构上定义的。我们还与定义在1级视图图（20个节点）和2级视图图（20和10个节点）上的view-GCN-L1和view-GCN-L2进行比较。如表5所示，view-GCN-L1比 "基线 "取得了1.8%和1.0%的准确性，view-GCN-L2进一步提高了0.1%和0.7%的结果。最后的3级视图GCN比视图GCN-L2实现了1.2%和0.3%的改进，显示了分层结构的有效性。采样率的影响。通过增加采样率s到0.6和0.7，view-GCNs更深，4级和5级分别有[20,12,7,4]、[20,14,10,7,5]个节点，每类和每例的准确率略微下降(0.1%,0.2%)和(0.3%,0.3%)。选择构建全局特征的层。ViewGCN在每一层的局部图卷积后对节点特征进行最大集合，以构建全局形状描述符。我们还展示了View-GCN(NLMP)的结果，其架构与View-GCN相同，只是在每一层的非本地信息传递中对节点特征进行了最大池化。与view-GCN相比，view-GCN(NLMP)的精度分别低了1.5%和0.5%。扩展到不规则视图配置。View-GCN也可以灵活地扩展到不规则的视图配置中。以图4（c）为例，该配置是基于从图4（b）中随机选择的12个视图，每个视图的坐标都是随机扰动的。我们设计的view-GCN有12、6、3三个级别的节点，它取得了每类85.3%和每例89.5%的准确率，比MVCN-new[48]高4.2%和1.9%。

7. Conclusion

我们提出了一种用于3D形状识别的新型图卷积网络。我们通过视图图对一个形状的多个视图进行建模，并在分层视图图上开发了一个新颖的GCN来学习全局形状描述符。大量的实验证明了其有效性。在未来的工作中，我们计划将视图GCN应用于多模态特征融合。鸣谢这项工作得到了国家自然科学基金委（11971373, 11690011, U1811461, 61721002）和国家重点研发计划2018AAA0102201的支持。