简介
这篇论文是依据Ramprasaath R. Selvaraju的Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization的论文来写的。Grad-CAM这篇文章展示出卷积神经网络的识别方式和人的识别方式有着异曲同工之妙。如图1所示,当识别狗时,网络会将“注意力”放在狗身上,同样的当识别猫时,网络会将“注意力”放在猫身上。详情可参见文献1、2。
图一
但是GAIN的作者发现了一个问题,那就是在识别某些物体的时候,网络容易会将“注意力”放在和所要识别的物体相关的东西上,而不会将“注意力”放在物体本身上。如图2所示,可以看出,网络在识别船的时候,却把“注意力”放在了水面上。
图二
针对于本问题,作者提出了一种新的训练方式,通过在最小化原图像识别损失函数的同时来最小化遮挡住待识别物体的图像的识别分数来训练整个网络,训练后的网络能够更好的将“注意力”放在待识别的物体上。
guided attention inference networks(gain)工作方式