在机器学习的术语中,该数据集称为训练数据集(training data set) 或训练集(training set)。 每行数据(比如一次房屋交易相对应的数据)称为样本(sample), 也可以称为数据点(data point)或数据样本(data instance)。 我们把试图预测的目标(比如预测房屋价格)称为标签(label)或目标(target)。 预测所依据的自变量(面积和房龄)称为特征(feature)或协变量(covariate)。
给定一个数据集,我们的目标是寻找模型的权重𝐰和偏置𝑏, 使得根据模型做出的预测大体符合数据里的真实价格。
将所有特征放到向量𝐱中, 并将所有权重放到向量𝐰中, 我们可以用点积形式来简洁地表达模型:
𝑦̂ =𝐰⊤𝐱+𝑏.
向量𝐱对应于单个数据样本的特征。 用符号表示的矩阵𝐗 可以很方便地引用我们整个数据集的𝑛个样本。 其中,𝐗的每一行是一个样本,每一列是一种特征。
对于特征集合𝐗,预测值𝐲̂ 可以通过矩阵-向量乘法表示为:
𝐲̂ =𝐗𝐰+𝑏
因此,我们通常会在每次需要计算更新的时候随机抽取一小批样本, 这种变体叫做小批量随机梯度下降(minibatch stochastic gradient descent)。
对于线性回归,每个输入都与每个输出(在本例中只有一个输出)相连, 我们将这种变换( n
中的输出层) 称为全连接层(fully-connected layer)或称为稠密层(dense layer)。