Task01:线性回归;Softmax与分类模型、多层感知机
目录
Task01:线性回归;Softmax与分类模型、多层感知机
1、线性回归
线性回归输出是一个连续值,因此适用于回归问题。回归问题在实际中很常见,如预测房屋价格、气温、销售额等连续值的问题。
1.1 线性回归的基本要素
以一个简单的预测房价的例子来说明,目标是预测房价,通过探索房价和面积与房龄这两个因素的具体关系来理解线性回归。
(1)模型
线性回归假设输入与各输出之间是线性关系,
设房屋的面积为x1,房龄为x2,售出价格为y。建立基于输入x1和x2来计算输出y的表达式,也就是模型(model):
其中w1和w2是权重(weight),b是偏差(bias),且均为标量。它们是线性回归模型的参数(parameter)。模型输出y^是线性回归对真实价格y的预测或估计。我们通常允许它们之间有一定误差。
(2)模型训练
①:训练数据
一栋房屋被称为一个样本(sample),其真实售出价格叫作标签(label),用来预测标签的两个因素叫作特征(feature)。特征用来表征样本的特点。
采集的样本数为n,索引为i的样本的特征为和,标签为。对于索引为i的房屋,线性回归模型的房屋价格预测表达式为:
②:损失函数
在模型训练中,我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差,且数值越小表示误差越小。衡量误差的函数称为损失函数(loss function),例如常用的 平方误差损失函数(平方损失):
通常,使用训练数据集中所有样本误差的平均来衡量模型预测的质量,即
③:优化函数
模型的解析解:当模型和损失函数形式较为简单时,可以直接用公式表达出来的误差最小化问题的解。
模型的数值解:只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值,大多数深度学习模型的解。
在求数值解的优化算法中, 小批量随机梯度下降(mini-batch stochastic gradient descent)
算法过程:
先选取一组模型参数的初始值,如随机选取;
接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的值。
在每次迭代中,先随机均匀采样一个由固定数目训练数据样本所组成的小批量(mini-batch)B,然后求小批量中数据样本的平均损失有关模型参数的导数(梯度),最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。