1.定义One-Hot编码函数
每个唯一的分类值都被赋予一个唯一的二进制向量,也被称为‘独热’向量,因为在这个向量中,只有一个位置元素是‘1’(表示该类别的存在),其余所有位置的元素都是‘0’
如,猫,狗,鸟三类中,猫可以被编码为【1,0,0】,狗为【0,1,0】,鸟为【0,0,1】
2.处理连续数据
(1)步长(学习率):参数lr(learning rate)
(2)损失函数(Loss Function):在机器学习中是一种用来衡量预测值与真实值之间差异的度量标准。它是优化算法(如梯度下降算法)在训练模型时会参考的对象,以便调整模型参数以最小化预测误差。
表达式:MSELOSS= (y
-y
)^2
(3)归一化
使用 nn.BatchNorm1d 层时,它会对每个特征维度上的数据进行标准化处理。具体而言,它会计算每个特征维度的均值和方差,并将输入数据进行中心化和缩放,以使其分布接近均值为0、方差为1的标准正态分布。
数学方程如图
其中,eps默认为1e-5,是为了防止当标准差太小时,计算机将分母处理为
3.训练集,验证集,测试集
(1)训练集:用于训练机器学习模型的数据集。
通过使用训练集中的数据,模型学习输入和输出之间的关系,即模型的训练过程。通过不断地在训练集上训练,模型会逐渐优化自身的参数以使模型的预测性能最佳。
(2)验证集:用于验证模型在训练过程中的性能。
通常在模型训练过程中,为了防止模型过度拟合(即模型在训练数据上表现良好但在新数据上表现不佳),需要使用验证集来评估模型的泛化能力。通过在验证集上测试模型的性能,可以调整模型的参数或结构,以优化模型在未知数据上的表现。
(3)测试集:用于评估模型在未见过的数据上的最终性能。
测试集通常在整个数据收集过程中只使用一次,用于评估模型的最终效果。测试集的目的是为了确保模型具有较好的泛化能力,即能够在未见过的数据上做出准确的预测或决策。
4.优化器
用于调整神经网络模型参数以最小化损失函数的算法,优化器的目的是根据输入数据和期望的输出标签来调整模型的权重和偏置,使得模型更好拟合训练数据并在未见过的数据上表现良好
5.nn.ReLU(激活函数)
数学公式如图
激活函数是用来加入非线性因素的,提高神经网络对模型的表达能力,解决线性模型所不能解决的问题