2021-09-25

最新推荐文章于 2024-09-20 10:15:00 发布

青环

最新推荐文章于 2024-09-20 10:15:00 发布

阅读量2.9k

点赞数

分类专栏：人工智能学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_48938055/article/details/120474183

版权

人工智能学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习模型中一般有两类参数：

一类需要从数据中学习和估计得到，称为模型参数（Parameter）---即模型本身的参数。比如，线性回归直线的加权系数（斜率）及其偏差项（截距）都是模型参数。

还有一类则是机器学习算法中的调优参数（tuning parameters），需要人为设定，称为超参数（Hyperparameter）。比如，正则化系数λ，决策树模型中树的深度。

sample batch epoch

Sample
Sample是单个数据。即有意义的数据的最小单位。

训练数据集由许多Sample组成。

batch：sample扎成堆
batch是一个人为设定的超参数。

batch的意思是“批”，即把一定数目的Sample组合到一起，组成一个batch。
batch_size表示一个batch中Sample的个数

另外，batch的大小与梯度下降的种类有关：

批量梯度下降 —> batch_size=训练集的大小（整个训练集作为一个batch）
随机梯度下降 —> batch_size= 1（每个batch中只有一个Sample）
小批量梯度下降 —> 1 <batch_size<训练集的大小(每个batch中Sample的个数大于1且小于训练集Sample的总数)

epoch
epoch是一个人为设定的超参数。

epoch定义了学习算法在整个训练数据集中的工作次数。
一个epoch表示，训练集中的每个Sample都有机会更新内部模型参数。
epoch由一个或多个batch组成（由batch中包含的Sample的量决定）。例如，只有一个batch的epoch，称为批量梯度下降学习算法。

epoch 数量一般很大，通常是数百或数千，允许学习算法运行到模型的误差被充分地最小化。

张量（tensor）的理解

因为我们通常需要处理的数据有零维的（单纯的一个数字）、一维的（数组）、二维的（矩阵）、三维的（空间矩阵）、还有很多维的。Pytorch为了把这些各种维统一起来，所以起名叫张量。

即：

张量可以看作是一个多维数组。标量可以看作是0维张量，向量可以看作1维张量，矩阵可以看作是二维张量。如果你之前用过NumPy，你会发现 Tensor和NumPy的多维数组非常类似。

也就是说，tensor和NumPy都是为了表达张量（多维数组），在这些张量（多维数组）上可以进行各种各样的运算，因此把张量及其运算封装成了类，张量的运算就是类里面的方法。

在各种程序语言中, 张量是以多维数组的形式表示的,
1个三维(阶 rank)张量a: (shape:(3,2,1)),
[
[[1],[2]],
[[3],[4]],
[[5],[6]]
]
张量的rank

红：三行

绿：两列

蓝：深度为1（一个数字）
要找到某个元素, 需要指定数组的下标, 如a[3,2,1]=6，但a[3,2,1]与其元素的值的意义不完全相同。

#四维张量
const4 = tf.constant([
                     #第一个3行4列深度为2的三维张量
                     [[[1,  2], [ 3,  4], [ 5,  6], [ 7,  8]],
                     [[11, 12], [13, 14], [15, 16], [17, 18]],
                     [[21, 22], [23, 24], [25, 26], [27, 28]]
                     ],
                     #第二个3行4列深度为2的三维张量
                     [[[1,  2], [ 3,  4], [ 5,  6], [ 7,  8]],
                     [[11, 12], [13, 14], [15, 16], [17, 18]],
                     [[21, 22], [23, 24], [25, 26], [27, 28]]]
                     ], tf.float16)
print(const4)

Tensor("Const_4:0", shape=(2, 3, 4, 2), dtype=float16)

对axis的理解（代表张量的一个维度）

张量在神经网络训练过程中的应用

经常使用下面的方式对输入数据进行变换：

output = relu(dot(w, input) + b)

其中，w和b都是张量，它们为该层的权重或可训练参数，这些权重包含网络从观察训练数据中学到的信息。

一开始，这些权重矩阵取较小的随机值，这一步叫做随机初始化，运算不会得到有用的表示。

虽然得到的表示没有意义，但这是一个起点，下一步是根据反馈信号逐渐调节这些权重，这个逐渐调节的过程叫做训练，也就是机器学习中的学习。

学习的过程是一个循环：

抽取训练样本x和对应目标y组成的数据批量
在x上运行网络，即前向传播，得到预测值y_pred
计算网络在这批数据上的损失，用于衡量y_pred和y之间的距离
在更新网络的所有权重，使网络在这批数据上的损失略微下降
最终得到的网络在训练数据上的损失非常小，即预测值y_pred和预期目标y之间的距离非常小。

网络就学会了将输入映射到正确目标。

第一步看起来非常简单，只是输入/ 输出（I/O）的代码。

第二步和第三步仅仅是一些张量运算的应用。

难点在于第四步：更新网络的权重。考虑网络中某个权重系数，你怎么知道这个系数应该增大还是减小，以及变化多少？

简单的方法是保持其他参数不变，只调节其中一个，观察反馈。但是，当网络中参数成千上万个时，这种方法低效且计算代价巨大。

一种更好的方法是利用网络中所有运算都是可微的这一事实，计算损失相对于网络系数的梯度，然后向梯度的反方向改变系数，从而使损失降低。

关于可微、导数、梯度、随机梯度下降、链式求导（反向传播算法）等基本数学原理，可以参考相关资料。

于是，第四步就可以通过下述流程有效实现：

计算损失相对于网络参数的梯度（一次反向传播）
将参数沿着梯度的反方向移动一点，从而使这批数据上的损失减少一点