机器学习笔记--optimizer

1. 什么是批量梯度下降法(Batch Gradient Descent,BGD)?

在工程实践中,标准梯度下降法主要存在两个问题:

(1)当数据量太大时,收敛过程可能非常慢。

(2)如果误差曲面存在多个局部最小值,那么标准梯度模型可能找不到全局最小值点。

下面我们先来解释第(1)个问题 。如果根据相关模型来训练权值参数,每次更新迭代,都要遍历训练样本集合D中的所有成员,然后求误差和、分别求各个权值的梯度,迭代一次都会“大动干戈”。因此这种算法也叫作批量梯度下降法(Batch Gradient Descent,BGD)。Batch这里指的是全体数据。

可以想象,如果全体样本数量不大还好,如果数量动辄几百万、几千万之多,还要这么折腾,求得全部误差,计算量这么大,才学习到一次参数的更新,效率就有点太低了,也不现实。

数据是死的,人是活的。于是人们想到利用大样本的一部分样本,一小批一小批的数据来分别更新一次网络权值。比如说,从60000个MNIST手写数据集中,每次抽取100个数据,来训练学习一次,这样的“一小批”的学习方式,就是mini-batch学习

八卦一下,有人把“mini”音意俱佳地翻译成“迷你”。比如说,miniskirt 就是“迷你裙”,何以“迷你”?因为它“短小精悍”嘛。miniskirt的正规点翻译,就是“超短裙(用料比较少)”。

那回到“mini-batch”的理解上(比如说上面提到的100),它的“短小(mini)”是相对于全体的“batch”(比如说上面提到的60000),其数量确实太少了。船小好调头,“batch”小,也好训练。

mini-batch学习的训练方式,后期我们还会提到,这里不再赘述。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值