《Neural Network and Deep Learning》学习笔记-hyper-parameters


本系列笔记为《Neural Network and Deep Learning》学习笔记

本系列笔记汇总
各种待续中……
第一章
第二章
第三章 Improving the way neural networks learn
3.1 交叉熵代价函数
3.2 正则化方法
3.3 权值初始化
3.4 hyper-parameters选取
3.5 一些其他技术
第四章 可视化方式证明神经网络可以近似任意函数
第五章 Why are deep neural networks hard to train?
5.1 引言
5.2 什么是梯度消失问题
5.3 什么引起了梯度消失?深层网络中的梯度不稳定问题
5.4 更加复杂的深度网络中的不稳定梯度
5.5 深度学习中的其他障碍
第六章 深度学习


本文为《Neural Network and Deep Learning》第三章Improving the way neural networks learn:How to choose a neural network’s hyper-parameters(如何选择神经网络中的混合参数)部分的学习笔记;
注:不知道hyper-parameters的正确译法是什么,暂且按照字面意思,称其为混合参数

本笔记目录


3.1 引言

在利用神经网络解决实际问题时,hyper-parameters的选择其实是一个比较困难的工作,并且,当hyper-parameters选择不恰当时,会对网络的性能造成非常大的影响。所有,有效的选择hyper-parameters是非常重要的!本节只是讲述hyper-parameters的一些基本问题,实际中要复杂许多。

hyper-parameters:学习率learning rate、正则化系数、mini-batch size、网路的层数、每一层的neurons个数等等

3.2.Broad strategy

一个宗旨:在初始阶段,不要试图直接找到一个复杂的网络去解决问题,最关键的是,保证能够从网络中得到快速的反馈(网络过于复杂,会导致实验进行的非常慢)

下面是书中给出的broad strategy的一个实际例子:
目的:手写字体分类问题

  • 构建一个简单的神经网路,不加隐藏层,[784,10]
  • validation data只取100个(而不是原来的5000个)
  • 学习率 η=10.0 λ=1000.0 ,发现validation data性能并不好,比随机猜测还要差
  • 更改学习率 η=1 ,发现性能还是不好,但比 η=10.0 好一些了,这个是个好的信号
  • 更改 λ=100.0 ,发现性能又很差,那么,继续减小 λ=1 ,发现性能有所提高了
  • 继续更改学习率 λ
  • 这样一点点进行hyper-parameters的更改
  • 当得到较为恰当的hyper-parameters后,再去更改网络的结构,比如,添加隐藏层等

3.3.Learning rate学习率

3.3.1 三个网络的小例子

构造三个MNIST networks(对MNIST进行分类的神经网络),除了学习率之外,这三个神经网络的所有其它参数全部一致,它们的学习率分别为: η=0.025 η=0.25 η

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值