Applications of graph convolutional networks in computer vision图卷积在计算机视觉的应用

在这里插入图片描述

摘要:图卷积网络(Graph Convolutional Network, GCN)是近年来深度学习领域研究的热点之一,它对非欧几里得空间数据之间的潜在关系进行了建模。它通过对欧几里得空间数据中的潜在空间、拓扑、语义等信息进行建模,已广泛应用于不同的计算机视觉任务中,并取得了显著的成功。为了更好地理解GCN的工作原理和未来在计算机视觉领域的应用,本文综述了GCN的基本原理,总结了GCN在不同视觉任务中使用的难点和解决方案,并详细介绍了在不同视觉任务中利用欧几里得空间数据构造图的方法。同时,综述将GCN在基本视觉任务中的应用分为图像识别、目标检测、语义分割、实例分割和目标跟踪。对GCN在基本视觉任务中的作用和表现进行了总结和比较。本文强调了GCN在计算机视觉中的应用面临三个挑战:计算复杂性、从欧几里得空间数据构建图的范式以及模型的可解释性。最后,本文提出了GCN在视觉领域的两个未来发展趋势,即模型轻量化和GCN与其他模型的融合,以提高视觉模型的性能,满足视觉任务的更高要求。
一. 引言
卷积神经网络(Convolutional Neural Network, CNN)具有强大的建模能力[1,2],可以从欧氏数据中提取和处理有效的数据表示。因此,它已被广泛用于处理计算机视觉任务,并在计算机视觉方面取得了显著的进步。尽管cnn取得了巨大的成功,但它们难以对特定学习任务的内在图结构进行编码[3],因此忽略了图像中潜在的空间、拓扑和语义信息。为了考虑图像中潜在信息与任务之间的相关性,Gong等[4]提出了一种基于排名的学习策略来训练深度CNN。Wang等[5]使用递归神经网络(rnn)将图像标签转换为嵌入的标签向量,可以考虑标签之间的相关性。另一方面,注意机制已被广泛用于模拟图像中的潜在关系。Zhu等[6]提出了一种基于加权注意图的空间正则化网络来捕获图像的语义和空间关系。Wang等[7]引入了空间转换层和长短期内存(LSTM)单元捕获图像标签相关性。
除了上面提到的结构方法外,还使用了许多图方法进行相关建模。Li等人[8]在图形套索框架中生成了一个与图像相关的条件标签结构。Li等[9]利用最大生成树算法在标签空间中建立了树形结构图。Lee等人[10]使用知识图来描述多个标签之间的关系。2019年,匡石提出了一种基于图卷积神经网络(Graph Convolutional Neural Network, GCN)的多标签图像识别方法[11],彻底打开了GCN计算机视觉的大门。
GCN由Bruna等人[12]于2013年提出。作为一种新的卷积网络结构,将使卷积通常用于深度学习的方法应用到图数据中。自2017年Kipf等[13]首次将GCN用于解决半监督分类问题以来,GCN已成为深度学习领域的研究热点。GCN模型是一种神经网络体系结构,它利用图的结构在卷积中从邻居中收集节点信息。GCN具有很强的学习图表示的表达能力,在不同的任务和应用中都取得了优异的表现[3]。
目前,GCN主要用于解决非欧几里德空间数据问题。通过对非欧几里德空间数据的结构信息进行编码,对实体之间的关系进行建模,挖掘数据之间的潜在关系。随着GCN的不断发展,它已经被应用到许多领域,如网络分析[14-22]、推荐系统[23-26]、流量预测[27-29]、生物化学[30-35]、自然语言处理[36-41]、计算机视觉[42-46]。
最近有一些关于GCN的评论。Zhang等人[3]对GCN进行了详细的回顾,包括了除基本GCN外的许多现有GCN变体,并重点讨论了在图上定义的卷积操作。Jie等[47]更详细地介绍了GCN中不同的计算模块,如传播模块、跳过连接、池操作等。文献[48-50]是近年来关于GCN的最新综述。Zhang等[48]将GNN分为四类:循环GCN、卷积GCN、图自编码器和时空GCN。Wu等[49]主要总结了不同的图深度学习方法。文献[50]主要统一了网络嵌入模型和GNN模型。上述总结工作主要集中在GCN模型上。虽然也有一些著作[3,47,49]介绍了GCN在计算机视觉中的应用,但也只是简单的提及,并不全面和具体。文献[3]介绍了GCN在图像分类和动作识别中的应用。文献[47]描述了GCN在少量(零)样本的图像分类、视觉推理和语义分割中的应用。文献[49]指出,GCN可以应用于场景地图生成、点云分类和动作识别等任务。然而,在这些综述中,对GCN在基本视觉任务中的作用、具体应用方法和有效性的深入探讨仍然缺乏。与上述

本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。本课程系统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割、全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人CSDN博客。本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值