CNN————激活可能性小的神经元不代表这个神经元的用处小

在CNN中,我们会用到不同的Kernel来对图像中不同的邻域进行特征提取,而不同的Kernel提取的特征往往是不同的,
(这也是我们构建CNN网络的一个要求,我们总是希望不同的Kernel能提取到不同的特征;这也是为什么在对CNN的网络进行初始化的时候,不能将权值全部初始化为0的原因,因为如果权值的初始值相同,对于同一个gate连接的两个权值来说,由于回传过来的梯度时相同的,则两者在此次更新中被更新的△相同,则更新后的值相同,长此以往,则每次迭代后同一gate下的两个权值会一直保持相同,从而导致symmetry现象的发生,所以我们需要使用随机初始化,使得不同权值的初始化参数不同)
当我们使用ReLU函数时,会产生一个现象,也就是,ReLU函数会主动选择大于0的特征结果,而排除小于0的特征结果,此时我们就认为当前特征“not activate”,于是由于不同的Kernel通过学习会获得不同的W和b,则会导致不同的特征结果;那么会不会存在某些Kernel比较容易激活,而某些Kernel不容易激活呢?
想要弄清楚这个问题,我们还需看一下输入自变量x的范围,
首先,当layer = 1时,输入x的范围总是不小于0的,因为图像数据的范围是0~255,所以都是正数;
其次,当layer > 1时,输入x的范围也是不小于0的,因为ReLU函数的值域是[0,+∞);
综上所述,输入x的范围也是不小0的,既然输入x是不小于0的,也就是说特征结果的正负性取决于Kernel的权值W和b,那么我们可以粗略的认为,如果W和b的正数越多越大,那么特征结果y为正数的可能性越高,也就是说当前神经元被激活的可能性就越高,那么是不是神经元被激活的可能性越高越好呢?
显然不是的,我们可以想到,如果恒定通量b的值很高,我们总能保证该Kernel是有很大的概率会被激活的,如果我们假设一种极限,也就说,该神经元100%会激活,那么就会出现一个很奇怪的现象,一个Kernel提取的特征会100%的出现,那么这种“特征”还能叫特征吗?
显然这样的模型不是我们想要的,由吴教授的讲授可知,最初Sigmoid()函数的提出其实是为了区分0.5这样一个概率值左右的特征结果,也就是说,当y>=0.5时,我们认为特征被激活;而当y<0.5时,我们认为当前的特征不足以导致我们期望的结果;
(我们还是要看看输入x的值域是什么样的?是不是都是非负的值呢?)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值