【AI-42】如何调整参数和超参_人工智能超参数-CSDN博客

本文链接：https://blog.csdn.net/qq_45611002/article/details/145947143

在机器学习和深度学习中，参数和超参数是两个重要概念，以下是一些常见的参数和超参数及其作用：

参数

权重（Weight）
- 解释：可以将权重想象成连接不同神经元之间的“桥梁”，其大小决定了一个神经元的输出对下一个神经元的影响程度。权重越大，说明前一个神经元对后一个神经元的影响就越大；权重越小，影响就越小。
- 作用：在模型训练过程中，权重不断调整，使得模型能够学习到输入数据中的各种特征和模式，从而实现对数据的准确拟合和预测。例如在图像识别中，不同的权重可以让模型识别出图像中不同的特征，如边缘、颜色等，进而判断图像是猫还是狗。
偏置（Bias）
- 解释：偏置就像是给神经元输出添加的一个“基础值”。即使输入为0，偏置也能让神经元有一定的输出，它可以帮助神经元更好地适应数据的分布。
- 作用：偏置可以调整神经元的激活状态，使模型能够更好地处理各种数据情况。比如在一个线性回归模型中，偏置可以让直线不一定要经过原点，从而更好地拟合数据。

超参数

学习率（Learning Rate）
- 解释：学习率决定了模型在训练过程中更新参数的速度。如果把模型训练比作爬山找山顶（最优解）的过程，学习率就是每一步迈出的大小。
- 作用：学习率过大，可能会导致模型在训练过程中错过最优解，甚至无法收敛；学习率过小，模型训练速度会非常慢，需要很长时间才能找到最优解。
隐藏层神经元数量
- 解释：隐藏层神经元数量决定了模型的复杂度和学习能力。可以把它想象成模型内部用来处理信息的“小房间”数量，每个“小房间”都可以对输入信息进行一定的处理。
- 作用：神经元数量越多，模型能够学习到的特征和模式就越复杂，拟合能力就越强，但同时也可能导致过拟合，即模型对训练数据过度适应，在新数据上表现不佳；神经元数量过少，模型可能无法学习到足够的特征，导致欠拟合，无法准确拟合数据。
批量大小（Batch Size）
- 解释：批量大小就是每次训练时同时处理的数据样本数量。可以理解为一次给模型“喂”多少个数据让它一起学习。
- 作用：较大的批量大小可以利用更多的数据信息来更新参数，提高训练效率，同时可能使训练过程更加稳定，但会占用更多的内存资源；较小的批量大小可以更频繁地更新参数，可能有助于模型跳出局部最优解，但训练速度可能会变慢，而且训练过程可能会更加不稳定。
正则化系数
- 解释：正则化系数用于控制模型的复杂度，防止过拟合。就好像给模型带上了一个“紧箍咒”，限制它不要过度学习训练数据中的噪声和细节。
- 作用：正则化系数越大，对模型复杂度的限制就越强，模型就越倾向于简单化，从而减少过拟合的风险，但可能会导致模型的拟合能力下降；正则化系数越小，模型可能会过度拟合训练数据，在新数据上的泛化能力可能会变差。
迭代次数（Epoch）
- 解释：迭代次数表示模型对整个训练数据集进行学习的轮数。可以理解为模型把所有数据从头到尾学习了多少遍。
- 作用：迭代次数过少，模型可能没有充分学习到数据中的特征和规律，导致模型性能不佳；迭代次数过多，可能会导致模型过拟合，并且会增加训练时间和计算资源的消耗。

如何理解调整的过程？

调整参数

理解方式：可以把模型想象成一个学生，参数就是这个学生大脑里用来记住知识的各种 “小格子” 里的内容。在医疗领域，微调参数就像是让这个学生专门去学习医疗方面的知识，比如各种疾病的症状、药物的作用等，把这些知识装到 “小格子” 里。这样学生在面对医疗文本、影像这些具体的医疗数据时，就能根据学到的这些知识来进行疾病预测、药物推荐等操作，就好像学生能根据记住的知识来答题一样。
实际操作：在训练模型时，模型会根据输入的医疗数据，通过算法去自动改变这些 “小格子” 里的内容，也就是调整参数，让模型能越来越准确地处理医疗任务。比如模型在看了很多张肺部 X 光影像和对应的疾病诊断结果后，会自动调整参数，让自己能从影像中看出更多与疾病相关的特征，从而更准确地判断疾病。

调整超参数

理解方式：超参数可以看作是指导这个学生学习的一些规则或者方法。不同领域的数据就像不同的学习环境，需要用不同的学习方法。在电商领域，数据量很大还很多噪声，就好比学生要在一个很吵闹、有很多干扰的环境里学习大量的东西。这时候，我们就需要调整一些学习规则，比如让学生一次学习更多的内容（增大 batch size），这样可以提高学习效率。而对于科研领域比较规范但专业性强的数据，就好比学习的内容很难但很有条理，可能就需要给学生一些额外的提醒，让他不要学偏了（增加正则化强度），也就是防止模型过拟合。
实际操作：超参数不是模型自己能直接从数据中学到的，而是我们根据数据的特点和模型的表现来手动设置的。比如在处理电商数据时，我们发现模型训练得很慢，就可以尝试把一次处理的数据量（batch size）调大一些；如果发现模型对一些噪声数据过度关注了，就增加正则化强度，让模型不要太在意那些可能不太重要的干扰信息，从而让模型更好地学习到数据中的有用规律。

什么时候需要调整？

在机器学习和深度学习中，参数和超参数的调整场景有所不同：

调整参数的情况

模型训练阶段：参数指的是模型内部可以学习的变量，像神经网络中的权重（weight）和偏置（bias）。在训练过程中，为了让模型能够拟合训练数据，需要通过反向传播算法来计算损失函数对参数的梯度，进而沿着梯度反方向调整参数值，使损失函数不断减小。例如，在训练一个图像分类的神经网络时，随着训练数据不断输入，参数会持续更新，让模型逐渐学会区分不同类别的图像特征。
数据分布变化：当新的数据流入，且新数据的分布与原训练数据有一定差异，但差异不是特别大时，模型可以通过微调参数来适应新数据。比如一个原本用于识别手写数字的模型，在加入少量风格略有不同的新手写数字样本后，通过对参数的微调，仍能保持较好的识别效果。

调整超参数的情况

模型性能未达预期：如果模型在训练集上表现很好，但在验证集或测试集上准确率低、误差大，出现过拟合现象，可能需要调整超参数。比如减少神经网络隐藏层神经元数量，降低模型复杂度；增大正则化系数，对参数进行约束。反之，若模型在训练集上就表现差，出现欠拟合，可增加隐藏层神经元数量、加大学习率等，让模型有更强的学习能力。
不同的任务和数据集：不同类型的任务（如文本分类、语音识别、图像生成等）和数据集（规模大小、数据特征分布等不同）适用的模型超参数不同。例如，处理大规模图像数据集的卷积神经网络，其学习率、层数、每层的神经元数量等超参数，与处理小规模文本数据的循环神经网络的超参数设置往往不一样，需要根据具体情况重新调整。
训练过程异常：若训练过程中损失函数不收敛，一直震荡或者下降非常缓慢，可能是学习率设置不合理。此时，需要调整学习率，比如降低学习率来使训练过程更稳定地收敛；若训练速度过快，导致错过最优解，也可以适当减小学习率。