全局特征(Global features)是指对每一张行人图片的全局信息进行一个特征抽取,这个全局特征没有任何的空间信息。
缺点:
噪声区域会对全局特征造成极大的干扰(背景杂波)。
姿态的不对齐造成信息不对齐,也会使得全局特征无法匹配。
为了解决这个问题,我们提出了局部特征。
局部特征就是对图像的某一区域进行特征提取,最后将多个局部特征融合起来作为最终特征。
常用方法:切片,姿态,分割,网络
切片(Stride):水平切片,从上到下,对每一个切片块进行特征提取
姿态(Pose):利用姿态估计模型,把每个姿态估计出来,对关键姿态点进行特征提取
分割(Segmentation):把人或某个区域分割出来
网格(Grid):根据feature map
通常一个行人会定义14个姿态点
两个相邻的姿态点相连形成骨架
常用额姿态点估计模型包括: Hourglass、OPenPose、CPM、AlphaPose
Part: 是指通过一定的规则(例如姿态点信息)手工设置的一些矩形框区域
Attention: 是指(在一定的约束条件下)网络自动学习出的比较重要的任意形状区域
水平池化是指对于将feature maps进行水平等分,然后再池化得到分块的局部特征。
网络特征是指,将HxWxC尺寸的feature map中每个像素的C维特征作为一个网络特征,最终共有HxW个网络特征向量,每个向量的维度为通道数C