MAN(人群计数)
提出问题:
同一张图片中由于远近关系人头大小可能差异很大,但是标签只有点标注,目前 CNN 和 全局 Attention 是没法很好应对这种尺度差异的;
有些标签位置不太准确,比如应该在人头正中心却标注的有些偏。
因此文章一共提出了三个模块,可学习区域注意力(LRA)、局部注意力正则化(LAR)和实例注意力损失。前两个彼此关联,致力于解决第一个尺度差异问题;最后一个则是针对标签噪声,提出了非常简单却可以推广的损失范式。
解决方法:
提出了一种多方面注意网络(MAN)