线性神经网络

在介绍深度神经网络之前,我们需要了解神经网络训练的基础知识。本章我们将介绍神经网络的整个训练过程,包括:定义简单的神经网络架构、数据处理、指定损失函数和如何训练模型。为了更容易学习,我们将从经典算法————线性神经网络开始,介绍神经网络的基础知识。经典统计学习技术中的线性回归和softmax 回归可以视为线性神经网络,这些知识将为未来其他部分中更复杂的技术奠定基础。
线性回归
回归( regression )是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。
在机器学习领域中的大多数任务通常都与预测( prediction)有关。当我们想预测一个数值时,就会涉及到 回归问题。常见的例子包括:预测价格(房屋、股票等)、预测住院时间(针对住院病人等)、预测需求(零售销量等)。但不是所有的预测都是回归问题。在后面的章节中,我们将介绍分类问题。分类问题的目标是预测数据属于一组类别中的哪一个。

线性回归的基本元素

为了解释线性回归,我们举一个实际的例子:我们希望根据房屋的面积(平方英尺)和房龄(年)来估算房屋价格(美元)。为了开发一个能预测房价的模型,我们需要收集一个真实的数据集。这个数据集包括了房屋的销售价格、面积和房龄。在机器学习的术语中,该数据集称为训练数据集(training data set )或训练集(training set )。每行数据(比如一次房屋交易相对应的数据)称为样本( sample ),也可以称为数据点( data point)或数据样本( data instance )。我们把试图预测的目标(比如预测房屋价格)称为标签( label )或目标(target )。预测所依据的自变量(面积和房龄)称为特征( feature )或协变量( covariate )。
通常,我们使用n 来表示数据集中的样本数。对索引为 i 的样本,其输入表示为 x ( i ) = [ x ( 1 i ) , x ( 2 i ) ] ,其对应的标签是y ( i )
线性模型

在这里我们引用李沐老师的一篇文章作为讲解。

线性假设是指目标(房屋价格)可以表示为特征(面积和房龄)的加权和,如下面的式子:
price = w area · area + w age · age + b.
中的 w area w age 称为权重( weight ),权重决定了每个特征对我们预测值的影响。 b 称为偏置( bias )偏移量(ofset )或截距( intercept )。偏置是指当所有特征都取值为 0 时,预测值应该为多少。即使现实中不会有任何房子的面积是0 或房龄正好是 0 年,我们仍然需要偏置项。如果没有偏置项,我们模型的表达能力将受到限制。严格来说,( 3.1.1 )是输入特征的一仿射变换(afnetransformation )。仿射变换的特点是通过加权和对特征进行线性变换(lineartransformation ),并通过偏置项来进行平移( translation )。
给定一个数据集,我们的标是寻找模型的权重w 和偏置 b ,使得根据模型做出的预测大体符合数据里的真实价格。输出的预测值由输入特征通过线性模型的仿射变换决定,仿射变换由所选权重和偏置确定。
而在机器学习领域,我们通常使用的是高维数据集,建模时采用线性代数表示法会比较方便。当我们的输入包含d个特征时,我们将预测结果 y ˆ (通常使用“尖角”符号表示 y 的估计值)表示为:
y ˆ= w 1 x 1 + ... + w d x d +b.                                (3.1.2)
将所有特征放到向量 x R d 中,并将所有权重放到向量 w R d 中,我们可以用点积形式来简洁地表达模型:
y ˆ = w x + b.                                            (3.1.3)
( 3.1.3 ) 中,向量 x 对应于单个数据样本的特征。用符号表示的矩阵 X R n × d 可以很方便地引用我们整个数据集的n 个样本。其中, X 的每一行是一个样本,每一列是一种特征。
对于特征集合X ,预测值ˆy R n 可以通过矩阵 向量乘法表示为:
ˆ y = Xw + b                                                (3.1.4)
这个过程中的求和将使用广播机制(广播机制在 2.1.3 中有详细介绍)。给定训练数据特征 X 和对应的已知 标签y ,线性回归的目标是找到一组权重向量 w 和偏置 b :当给定从 X 的同分布中取样的新样本特征时,这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。
虽然我们相信给定 x 预测 y 的最佳模型会是线性的,但我们很难找到一个有 n 个样本的真实数据集,其中对于所有的1 i n y ( i ) 完全等于 w x ( i ) + b 。无论我们使用什么手段来观察特征 X 和标签 y ,都可能会出现少量的观测误差。因此,即使确信特征与标签的潜在关系是线性的,我们也会加入一个噪声项来考虑观测误差带来的影响。
在开始寻找最好的模型参数( model parameters w b 之前,我们还需要两个东西:
1 )一种模型质量的度量方式。
(2 )一种能够更新模型以提高模型预测质量的方法。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值