神经网络训练中的Batch Size参数

文章探讨了批量大小(BatchSize)在神经网络训练中的作用,指出批量大小影响训练速度、收敛点和性能。小批量训练倾向于收敛到平坦极小化,而大批量训练可能更尖锐。通过调整学习率和考虑并行化优势,可以优化大批量训练性能,但两者性能差距相对较小。
摘要由CSDN通过智能技术生成

文章目录

一、Batch Size解释

二、Batch Size影响训练的过程

三、较小的批量与大批量性能对比

四、如何优化大批量性能

一、Batch Size解释

训练神经网络以最小化以下形式的损失函数:

  • theta 代表模型参数
  • m 是训练数据样本的数量
  • i 的每个值代表一个单一的训练数据样本
  • J_i 表示应用于单个训练样本的损失函数

通常,这是使用梯度下降来完成的,它计算损失函数相对于参数的梯度,并在该方向上迈出一步。随机梯度下降计算训练数据子集 B_k 上的梯度,而不是整个训练数据集。

B_k 是从训练数据集中采样的一批,其大小可以从 1 到 m(训练数据点的总数)。这通常称为批量大小为 |B_k| 的小批量训练。我们可以将这些批次级梯度视为“true”梯度的近似值,即整体损失函数相对于 theta 的梯度。我们使用小批量是因为它倾向于更快地收敛,因为它不需要完全遍历训练数据来更新权重。

二、Batch Size影响训练的过程

结论:batch size越大:

  • 训练损失减少的越慢。
  • 最小验证损失越高。
  • 每个时期训练所需的时间越少。
  • 收敛到最小验证损失所需的 epoch 越多。

三、较小的批量与大批量性能对比

Keskar 等人对小批量和大批量之间的性能差距提出了一种解释:使用小批量的训练倾向于收敛到平坦的极小化,该极小化在极小化的小邻域内仅略有变化,而大批量则收敛到尖锐的极小化,这变化很大。平面minimizers 倾向于更好地泛化,因为它们对训练集和测试集之间的变化更加鲁棒 。

他们发现与大批量训练相比,小批量训练可以找到距离初始权重更远的最小值。他们解释说,小批量训练可能会为训练引入足够的噪声,以退出锐化minimizers 的损失池,而是找到可能更远的平坦minimizers 。

四、如何优化大批量性能

通过提高学习率,这种方法以前曾被建议过,例如 Goyal 等人提出:“线性缩放规则:当 minibatch 大小乘以 k 时,将学习率乘以 k。

批量大小为 32、64、128 和 256。我们将对批量大小 32 使用 0.01 的基本学习率,并相应地缩放其他批量大小。

调整学习率确实消除了小批量和大批量之间的大部分性能差距。现在,批量大小 256 的验证损失为 0.352 而不是 0.395——更接近批量大小 32 的损失 0.345。

线性缩放规则:当 minibatch 大小乘以 k 时,将学习率乘以 k。尽管我们最初发现大批量性能更差,但我们能够通过提高学习率来缩小大部分差距。我们看到这是由于较大的批次大小应用了较小的批次更新,这是由于批次内梯度向量之间的梯度竞争。

选择合适的学习率时,较大的批量尺寸可以更快地训练,特别是在并行化时。对于大批量,我们不受 SGD 更新的顺序性质的限制,因为我们不会遇到与将许多小批量顺序加载到内存中相关的开销。我们还可以跨训练示例并行化计算。

然而,当学习率没有针对较大的批量大小向上调整时,大批量训练可能比小批量训练花费的时间更长,因为它需要更多的训练时期来收敛。因此,您需要调整学习率以实现更大批量和并行化的加速。

大批量,即使调整了学习率,在我们的实验中表现稍差,但需要更多的数据来确定更大的批量是否总体上表现更差。我们仍然观察到最小批量大小(val loss 0.343)和最大批量大小(val loss 0.352)之间的轻微性能差距。一些人认为小批量具有正则化效果,因为它们将噪声引入更新,帮助训练摆脱次优局部最小值的吸引力 。然而,这些实验的结果表明,性能差距相对较小,至少对于这个数据集。这表明,只要您为批量大小找到合适的学习率,您就可以专注于可能对性能产生更大影响的其他方面的训练。

参考:

  1. Keskar, Nocedal, Mudigere, Smelyanskiy, and Tang. On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima. https://arxiv.org/pdf/1609.04836.pdf
  2. Li, Xu, Taylor, Studer, and Goldstein. Visualizing the Loss Landscape of Neural Nets. https://papers.nips.cc/paper/7875-visualizing-the-loss-landscape-of-neural-nets.pdf.
  3. Goyal, Dollar, Girshick, Noordhuis, Wesolowski, Kyrola, Tulloch, Jia, and He. Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour. https://research.fb.com/wp-content/uploads/2017/06/imagenet1kin1h5.pdf.
  4. https://zhuanlan.zhihu.com/p/41533289
  • 51
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
在 PyTorch ,可以通过在模型的输入层设置 `batch_size` 参数来指定每个 mini-batch 的样本数目。具体来说,如果你要处理的数据集包含 `n` 个样本,可以将数据集分成若干个大小为 `batch_size` 的 mini-batch。然后,在对模型进行训练或测试时,可以依次将每个 mini-batch 作为输入,对模型进行训练或测试。 在 PyTorch ,可以通过以下两种方式设置模型的 `batch_size` 参数: 1. 在定义数据加载器时,通过 `batch_size` 参数指定: ```python from torch.utils.data import DataLoader # 假设 dataset 是一个数据集,batch_size 是每个 mini-batch 的样本数目 dataloader = DataLoader(dataset, batch_size=batch_size) ``` 在这种方式,可以使用 PyTorch 提供的 `DataLoader` 类来定义数据加载器,并通过 `batch_size` 参数来指定每个 mini-batch 的样本数目。在训练或测试模型时,可以依次遍历每个 mini-batch,并将其作为模型的输入。 2. 在定义模型时,通过输入层的 `batch_size` 参数指定: ```python import torch.nn as nn # 假设 input_size 是输入层的大小batch_size 是每个 mini-batch 的样本数目 model = nn.Sequential( nn.Linear(input_size, hidden_size), nn.ReLU(), nn.Linear(hidden_size, output_size), ).to(device) model.batch_size = batch_size ``` 在这种方式,可以在定义模型时,通过输入层的 `batch_size` 参数来指定每个 mini-batch 的样本数目。具体来说,可以在模型初始化之后,将 `batch_size` 参数设置为模型的属性,并在训练或测试模型时,将输入数据的第一个维度设置为 `batch_size`,即: ```python # 假设 x 是一个大小为 (batch_size, input_size) 的输入数据 x = torch.randn(batch_size, input_size).to(device) output = model(x) ``` 在这个示例,我们首先定义了一个包含两个线性层和一个 ReLU 激活函数的神经网络模型,然后将其 `batch_size` 参数设置为 `batch_size`。在训练或测试模型时,我们将输入数据的第一个维度设置为 `batch_size`,并将其作为模型的输入。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值