在介绍深度神经网络之前,我们需要了解神经网络训练的基础知识。本章我们将介绍神经网络的整个训练过程,包括:定义简单的神经网络架构、数据处理、指定损失函数和如何训练模型。为了更容易学习,我们将从经典算法————线性神经网络开始,介绍神经网络的基础知识。经典统计学习技术中的线性回归和softmax
回归可以视为线性神经网络,这些知识将为未来其他部分中更复杂的技术奠定基础。
线性回归
回归(
regression
)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。
在机器学习领域中的大多数任务通常都与预测(
prediction)有关。当我们想预测一个数值时,就会涉及到
回归问题。常见的例子包括:预测价格(房屋、股票等)、预测住院时间(针对住院病人等)、预测需求(零售销量等)。但不是所有的预测都是回归问题。在后面的章节中,我们将介绍分类问题。分类问题的目标是预测数据属于一组类别中的哪一个。
线性回归的基本元素
为了解释线性回归,我们举一个实际的例子:我们希望根据房屋的面积(平方英尺)和房龄(年)来估算房屋价格(美元)。为了开发一个能预测房价的模型,我们需要收集一个真实的数据集。这个数据集包括了房屋的销售价格、面积和房龄。在机器学习的术语中,该数据集称为训练数据集(training data set
)或训练集(training set
)。每行数据(比如一次房屋交易相对应的数据)称为样本(
sample
),也可以称为数据点(
data point)或数据样本(
data instance
)。我们把试图预测的目标(比如预测房屋价格)称为标签(
label
)或目标(target
)。预测所依据的自变量(面积和房龄)称为特征(
feature
)或协变量(
covariate
)。
通常,我们使用n
来表示数据集中的样本数。对索引为
i
的样本,其输入表示为
x
(
i
)
= [
x
( 1
i
)
, x
( 2
i
)
]
⊤
,其对应的标签是y
(
i
)
。
线性模型
在这里我们引用李沐老师的一篇文章作为讲解。
线性假设是指目标(房屋价格)可以表示为特征(面积和房龄)的加权和,如下面的式子:
price
=
w
area
·
area
+
w
age
·
age
+
b.
中的
w
area
和
w
age
称为权重(
weight
),权重决定了每个特征对我们预测值的影响。
b
称为偏置(
bias
)偏移量(ofset
)或截距(
intercept
)。偏置是指当所有特征都取值为
0
时,预测值应该为多少。即使现实中不会有任何房子的面积是0
或房龄正好是
0
年,我们仍然需要偏置项。如果没有偏置项,我们模型的表达能力将受到限制。严格来说,(
3.1.1
)是输入特征的一仿射变换(afnetransformation
)。仿射变换的特点是通过加权和对特征进行线性变换(lineartransformation
),并通过偏置项来进行平移(
translation
)。
给定一个数据集,我们的标是寻找模型的权重w
和偏置
b
,使得根据模型做出的预测大体符合数据里的真实价格。输出的预测值由输入特征通过线性模型的仿射变换决定,仿射变换由所选权重和偏置确定。
而在机器学习领域,我们通常使用的是高维数据集,建模时采用线性代数表示法会比较方便。当我们的输入包含d个特征时,我们将预测结果
y
ˆ
(通常使用“尖角”符号表示
y
的估计值)表示为:
y
ˆ=
w
1
x
1
+
...
+
w
d
x
d
+b. (3.1.2)
将所有特征放到向量
x
∈
R
d
中,并将所有权重放到向量
w
∈
R
d
中,我们可以用点积形式来简洁地表达模型:
y
ˆ =
w
⊤
x
+
b. (3.1.3)
在
(
3.1.3
)
中,向量
x
对应于单个数据样本的特征。用符号表示的矩阵
X
∈
R
n
×
d
可以很方便地引用我们整个数据集的n
个样本。其中,
X
的每一行是一个样本,每一列是一种特征。
对于特征集合X
,预测值ˆy
∈
R
n
可以通过矩阵
‐
向量乘法表示为:
ˆ
y = Xw
+
b (3.1.4)
这个过程中的求和将使用广播机制(广播机制在
2.1.3
节
中有详细介绍)。给定训练数据特征
X
和对应的已知 标签y
,线性回归的目标是找到一组权重向量
w
和偏置
b
:当给定从
X
的同分布中取样的新样本特征时,这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。
虽然我们相信给定
x
预测
y
的最佳模型会是线性的,但我们很难找到一个有
n
个样本的真实数据集,其中对于所有的1
≤
i
≤
n
,
y
(
i
)
完全等于
w
⊤
x
(
i
)
+
b
。无论我们使用什么手段来观察特征
X
和标签
y
,都可能会出现少量的观测误差。因此,即使确信特征与标签的潜在关系是线性的,我们也会加入一个噪声项来考虑观测误差带来的影响。
在开始寻找最好的模型参数(
model parameters
)
w
和
b
之前,我们还需要两个东西:
(
1
)一种模型质量的度量方式。
(2
)一种能够更新模型以提高模型预测质量的方法。