动机:
这是一篇基于part,之后对于每个part添加了self-attention的文章。作者出发点在于当前结合human parsing的part re-id方法只能对人体部分检测,不能对一些装饰物,例如包,帽子等检测,而这些外部装饰也是重识别不可或缺的元素,却被当作background,这当然会降低精度。
创新:
作者提出了DPB网络,该网络主要由人体区域语义提取部分(human part branch)和self-attention(lantent part branch)结合。
- human part branch:该网络直接采用CE2P网络框架,提取得到了K个part(K-1个人体区域+1个非人体区域)的特征图,之后与原特征图融合后得到了与原来等大小的特征图。
- lantent part branch:该网络使用了self-attention,得到与原特征图等大小的feature mask
- 融合:将原特征图,human part特征图和latent part特征图相加,得到最终的特征。
架构:
架构特征:单流结构
特征:通过多层插入的DPB得到的特征
损失函数:CE loss+triplet loss
backbone:resnet50
实验:
对比不同的数目的K对结果的影响,发现K越大,细粒度越高,则精度越高。这里K=1时输入为原图;K=2时输入为人整体和背景;K=5时, 包括背景、头、上半身、下半身和鞋
这里作者做了个有意思的对比实验,当K=2时,即只有人的整体区域和背景区域时,作者有意分开他们俩做了个对照实验,发现当只有背景区域时,其效果要好于只有人的整体区域。也就是说,背景区域包含的信息可能会更具有区分性
结果在加入triplet loss后,从94.0提升到了95.2
疑惑:
作者展示了部分背景区域相关系数高的样本,但是这些样本的高相关区域并不是装饰物,而是天空等背景,这种案例应该是这个方法目前不足的地方。