前言
主要介绍最最基础的知识,在这个基础上有现在比较流行的GPT、Llama、Gemini等一系列大模型的出现,打好基础才能更理解上面是如何运作以及实现的过程。
PS:本篇科普不会介绍梯度下降算法(偏导数)等复杂的过程,先只会点到为止。
生命周期
-
建模(Modeling)
建模是设计深度学习模型的过程,包括选择适当的网络架构。
在此阶段,你需要确定的网络层数,每层的节点数、激活函数类型、优化器以及损失函数等。
-
训练(Training)
训练阶段是深度学习模型学习并优化权重的过程。
在此阶段,模型通过一组已标记的训练数据进行学习。这个过程在训练数据集上反复运行,直到模型的性能达到满意的程度或者达到预定的迭代次数,其中包含:有监督学习、无监督学习、半监督学习。
-
验证(Validation)
验证阶段通常在训练过程中进行,其目的是评估模型对未见过的数据的泛化能力。
在此阶段,模型在一个独立的,非训练数据集(验证集)上进行测试。验证过程帮助我们调整模型参数,并决定何时停止训练。
-
推理(Inference)
推理阶段是模型部署后的阶段,也就是模型在实际环境中作出预测的阶段。