基于Python的深度学习理论与实现(P5——mini-batch学习)

mini-batch

 深度学习使用训练数据进行学习,严格来说,就是针对训练数据计算损失函数的值,找出使该值尽可能小的参数。因此,如果训练数据有100个的话,我们就要将这个100个损失函数(LOSS function)的总和作为学习指标,有的时候也会将这个总的学习指标称为代价函数(COST function)。
 以交叉熵函数为例,如果要就计算n个训练数据的损失函数的和,就应该写成以下形式:
E = − 1 N ∑ n ∑ k t n k l o g ( y n k ) E=- \frac{1}{N} \sum_{n} \sum_{k}t_{nk}log(y_{nk}) E=N1nktnklog(ynk)
其中,假设数据有n个,tnk表示第n个监督数据的第k个元素的值,ynk表示第n个神经网络输出数据的第k个元素的值。
 这个式子只是将单个数据的损失函数扩大到了n份损失函数的和,不过最后为了正规化将这个和除以了n,这样可以求单个数据的平均损失函数,从而获得和训练数据的数量无关的统一指标。
 那么在实际的神经网络训练中,这个n应该怎么取呢?也就是说,我们要用多少个数据作为一个batch(批),用这个batch的损失函数和(代价函数)来作为神经网络的学习依据呢?
 前面提到过,我们将数据集分为了训练集和测试集(或者是训练集、验证集和测试集),往往一个训练集的数量是非常庞大的,例如MNIST数据集的训练数据有六万个之多,如果我们将这六万个数据作为一个batch,那么计算代价函数的过程会变得十分漫长,而且可能出现局部最优的情况(即参数下降到某一个点就不能继续往最优点下降了),还会导致模型的泛化能力降低。但是如果batch太小,会导致随机性变强(为什么会导致随机性变强后面会提到),难以收敛。
 具体的batch大小是一个需要根据实际应用进行实验性探究的问题。现在我们假设一个batch为100个数据,那么我们从所有训练数据中随机选择100个数据(对于MNIST中六万个训练数据就有600个batch)作为一个batch进行学习,这种学习方式称为mini-batch学习。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值