Feature map的值的思考
认为 “feature map为0的地方是没学到特征的地方,还有就是特征图上值越大起的决策作用越大” 这一说法是错误的。
首先要知道什么叫起作用,起作用就是这个点的特征值和输出值是强相关的,即它只要变化一点就会引起输出的剧变。 因为最后输出的结果是由特征值x和权重w共同决定,而且对于二分类任务来说sigmoid输出是0和是1都是有效的,所以不能以这样的方式理解!不同的卷积核可以看作对图片的不同操作。feature map为0或者为正为负没有本质的区别,都是信息的一种表示,不同的卷积核就是不同表示信息的方法,而激活函数则是决定了选择信息的方式,只是relu正好选择了正值而已,神经网络经过训练后,卷积核自然就把有用的信息通过正值表示出来。是relu决定了feature map正值有用。
在transformer中,那如何证明注意力分数越大,起的作用越大呢,可以求偏y/偏v(v指value,y指网络输出),如果v变了一点,y都会变得很剧烈,就说明v对y的影响很大,而算一下 偏y/偏v ,会发现乘上的注意力分数会是里面的一项。再比如grad-CAM可视化,求的是输出y(一个值)对特征图x的梯度值,即这一点的特征值对应的权重,主要其实看的是特征对输出的贡献,不一定指的是特征谁大谁小。