概要
回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法,经常用来表示输入和输出之间的关系。
涉及到的一些定义概念:
样本(sample)/ 数据点(data point)/ 数据样本(data instance):每行数据。
标签(label)/ 目标(target):试图预测的目标。
特征(feature)/ 协变量(covariate): 预测所依据的自变量。
损失函数(loss function):能够量化目标的实际值与预测值之间的差距。
预测值的公式为:y=Xw+b
线性回归的目标是找到一组权重向量 𝐰和偏置 𝑏。
方法
预测结果:
损失函数:
训练n个样本的损失均值:
我们的目的是找到使训练样本总损失值最小的一组参数(w*,b*)
解析解:参数w的矩阵中附加一列,将参数b放入。我们的目的是最小化‖𝐲−𝐗𝐰‖^2。将损失关于 𝐰的导数设为0,得到如下解析。
注意:像线性回归这样的简单问题存在解析解,但并不是所有的问题都存在解析解。
随机梯度下降:梯度下降(gradient descent)的方法几乎可以优化所有深度学习模型。 它通过不断地在损失函数递减的方向上更新参数来降低误差。算法分为两步:(1)初始化模型参数的值,如随机初始化; (2)从数据集中随机抽取小批量样本且在负梯度的方向上更新参数,并不断迭代这一步骤。 对于平方损失和仿射变换,我们可以明确地写成如下形式:
|B|表示每个小批量中的样本数,这也称为批量大小(batch size)。 𝜂
表示学习率(learning rate)。