前言
众所周知,随着深度学习技术的发展,深度卷积神经网络在图像分类、识别以及关键点定位上已得到广泛应用。目前在人体姿态、人脸识别等多个方面的关键点定位算法已经取得长足发展,但是应用于多变性的图像背景以及姿态等依然面临很大的挑战,如服饰在类别、比例和外观上具有多变性,其关键点定位精度并不高。下文将在传统的残差与沙漏网络模型基础上,介绍一种新的级联金字塔结构卷积神经网络,实现对困难关键点的定位进行精细调整。并通过实例剖析进一步帮助大家来理解。
传统卷积神经网络
1.沙漏网络
沙漏网络,正如其名,是一种形如沙漏的下采样-上采样结构,如下图所示。图中左侧部分通过卷积和池化操作将特征图降低到较低的分辨率。下采样通过池化操作完成,同时通过另一路卷积保留下采样前的特征图,用于和右侧上采样部分同尺度的特征图进行融合。当下采样部分特征图达到最小分辨率后,网络经过最近邻上采样后与保留的同尺度特征图进行融合,最后网络输出表示各个关节点在该像素出现的概率的特征集。
沙漏网络设计的目的在于获取不同尺度下图像所包含信息。利用多模块的沙漏网络可以定位关键点进而来识别人体姿态特征。
2.深度残差网络