机器学习模型中一般有两类参数:
一类需要从数据中学习和估计得到,称为模型参数(Parameter)---即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。
还有一类则是机器学习算法中的调优参数(tuning parameters),需要人为设定,称为超参数(Hyperparameter)。比如,正则化系数λ,决策树模型中树的深度。
sample batch epoch
Sample
Sample是单个数据。即有意义的数据的最小单位。
训练数据集由许多Sample组成。
batch:sample扎成堆
batch是一个人为设定的超参数。
batch的意思是“批”,即把一定数目的Sample组合到一起,组成一个batch。
batch_size表示一个batch中Sample的个数
另外,batch的大小与梯度下降的种类有关:
批量梯度下降 —> batch_size=训练集的大小(整个训练集作为一个batch)
随机梯度下降 —> batch_size= 1(每个batch中只有一个Sample)
小批量梯度下降 —> 1 <batch_size<训练集的大小(每个batch中Sample的个数大于1且小于训练集Sample的总数)
epoch
epoch是一个人为设定的超参数。
epoch定义了学习算法在整个训练数据集中的工作次数。
一个epoch表示,训练集中的每个Sample都有机会更新内部模型参数。
epoch由一个或多个batch组成(由batch中包含的Sample的量决定)。例如,只有一个batch的epoch,称为批量梯度下降学习算法。
epoch 数量一般很大,通常是数百或数千,允许学习算法运行到模型的误差被充分地最小化。
张量(tensor)的理解
因为我们通常需要处理的数据有零维的(单纯的一个数字)、一维的(数组)、二维的(矩阵)、三维的(空间矩阵)、还有很多维的。Pytorch为了把这些各种维统一起来,所以起名叫张量。
即:
张量可以看作是一个多维数组。标量可以看作是0维张量,向量可以看作1维张量,矩阵可以看作是二维张量。如果你之前用过NumPy,你会发现
Tensor
和NumPy的多维数组非常类似。
也就是说,tensor和NumPy都是为了表达张量(多维数组),在这些张量(多维数组)上可以进行各种各样的运算,因此把张量及其运算封装成了类,张量的运算就是类里面的方法。
在各种程序语言中, 张量是以多维数组的形式表示的,
1个三维(阶 rank)张量a: (shape:(3,2,1)),
[
[[1],[2]],
[[3],[4]],
[[5],[6]]
]
张量的rank
红:三行
绿:两列
蓝:深度为1(一个数字)
要找到某个元素, 需要指定数组的下标, 如a[3,2,1]=6,但a[3,2,1]与其元素的值的意义不完全相同。
#四维张量
const4 = tf.constant([
#第一个3行4列深度为2的三维张量
[[[1, 2], [ 3, 4], [ 5, 6], [ 7, 8]],
[[11, 12], [13, 14], [15, 16], [17, 18]],
[[21, 22], [23, 24], [25, 26], [27, 28]]
],
#第二个3行4列深度为2的三维张量
[[[1, 2], [ 3, 4], [ 5, 6], [ 7, 8]],
[[11, 12], [13, 14], [15, 16], [17, 18]],
[[21, 22], [23, 24], [25, 26], [27, 28]]]
], tf.float16)
print(const4)
Tensor("Const_4:0", shape=(2, 3, 4, 2), dtype=float16)
对axis的理解(代表张量的一个维度)
张量在神经网络训练过程中的应用
经常使用下面的方式对输入数据进行变换:
output = relu(dot(w, input) + b)
其中,w和b都是张量,它们为该层的权重或可训练参数,这些权重包含网络从观察训练数据中学到的信息。
一开始,这些权重矩阵取较小的随机值,这一步叫做随机初始化,运算不会得到有用的表示。
虽然得到的表示没有意义,但这是一个起点,下一步是根据反馈信号逐渐调节这些权重,这个逐渐调节的过程叫做训练,也就是机器学习中的学习。
学习的过程是一个循环:
抽取训练样本x和对应目标y组成的数据批量
在x上运行网络,即前向传播,得到预测值y_pred
计算网络在这批数据上的损失,用于衡量y_pred和y之间的距离
在更新网络的所有权重,使网络在这批数据上的损失略微下降
最终得到的网络在训练数据上的损失非常小,即预测值y_pred和预期目标y之间的距离非常小。
网络就学会了将输入映射到正确目标。
第一步看起来非常简单,只是输入/ 输出(I/O)的代码。
第二步和第三步仅仅是一些张量运算的应用。
难点在于第四步:更新网络的权重。考虑网络中某个权重系数,你怎么知道这个系数应该增大还是减小,以及变化多少?
简单的方法是保持其他参数不变,只调节其中一个,观察反馈。但是,当网络中参数成千上万个时,这种方法低效且计算代价巨大。
一种更好的方法是利用网络中所有运算都是可微的这一事实,计算损失相对于网络系数的梯度,然后向梯度的反方向改变系数,从而使损失降低。
关于可微、导数、梯度、随机梯度下降、链式求导(反向传播算法)等基本数学原理,可以参考相关资料。
于是,第四步就可以通过下述流程有效实现:
计算损失相对于网络参数的梯度(一次反向传播)
将参数沿着梯度的反方向移动一点,从而使这批数据上的损失减少一点