浅 CNN 中激活函数选择、 kernel大小以及channel数量

Activation function

当用经典的 LeNet 进行 MNIST 识别训练时,我发现将 sigmoid 函数改为 ReLu,同时降低学习率(防止 dying neurons)并没能加快 SGD 收敛,反而使得 accuracy 的提升变得非常缓慢。所以这样看来,当 CNN 没有深到极易发生 gradient vanishing 时,sigmoid 或者 tanh 依然是首选。

Kernel size

关注的 feature 比较细微时宜用小 kernel,反之 kernel 尺寸可以大一些。在这个实验中,采用 5x5 的 kernel 效果要比 3x3 的要差。

Channel number

最让我意外的就是 channel 数量对训练结果的影响。我之前一直以为提升 channel 数量可以获得图像中更多模式信息,从而提高模型效果。也就是觉得 channel 越多越好。但是这个实验中我把每层的 channel 数都提高了一倍,accuracy 却大幅降低。可见神经网络设计还是要具体问题具体分析。。。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值