目录
1. 线性回归模型与损失函数
为了解释 线性回归,我们举一个实际的例子:我们希望根据房屋的 面积(平方英尺)和 房龄(年)来估算 房屋价格(美元)。
- 为了开发一个能预测房价的模型,我们需要收集一个真实的数据集。 这个数据集包括了房屋的销售价格、面积和房龄。 在机器学习的术语中,该数据集称为训练数据集(training data set) 或 训练集(training set);
- 每行数据(比如一次房屋交易相对应的数据)称为 样本(sample),也可以称为 数据点(data point)或 数据样本(data instance);
- 我们把试图预测的 目标(比如预测房屋价格)称为标签(label)或 目标(target);
- 预测所依据的 自变量(面积和房龄)称为 特征(feature)或 协变量(covariate)。
1.1 构建简化模型
1.2 构建线性模型
1.3 线性模型联系神经网络
我们可以将线性回归模型描述为一个单层神经网络,如下图所示。 需要注意的是,该图只显示连接模式,即只显示每个输入如何连接到输出,隐去了权重和偏差。
1.4 神经网络源于神经科学
树突中接收到来自其他神经元(或视网膜等环境传感器)的信息 。 该信息通过突触权重 来加权,以确定输入的影响(即,通过 相乘来激活或抑制)。 来自多个源的加权输入以加权和 的形式汇聚在细胞核中, 然后将这些信息发送到轴突 中进一步处理,通常会通过 进行一些非线性处理。 之后,它要么到达目的地(例如肌肉),要么通过树突进入另一个神经元。
1.5 构建损失函数
一般用损失函数来衡量预估的质量,即预估值与真实值的偏差情况。
用二维图像表示如下:
1.6 构建训练数据集
分别构建n个 样本x 组成的 特征数据集X 和 标签数据集y 。
1.7 利用损失进行参数学习
将训练数据集代入到损失函数中计算 样本整体的损失 ,并通过最小化损失来学习(求出)最佳的参数:权重w 和 偏差b。
1.8 学习过程表示为显示解
将待求解的未知量移到等号左侧,已知量全部移到等号右侧的形式称为——显示解 。
对上式简单推导如下:
1.9 线性回归总结
2. 梯度下降法与参数优化
梯度 的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
找寻 “山谷” 与 “山顶” 的问题使用的就是 梯度下降法 ,即沿着梯度相反的方向,函数的变化率不断减小,最终趋于0,如果用此方法优化的是凸函数,便可得到函数的全局最优值;
值得注意的是 梯度上升(提升)法 ,虽然名字里有个上升,但其也是沿着梯度相反的方向,所谓的提升是指优化损失的函数的增加,即弱学习器的增加(查看详解),每个学习器还是依照梯度下降法在对函数寻优;
这里优化参数明显应当使用梯度下降法(箭头所指为梯度反方向,函数变化率减小):
2.1 参数优化实现
使用当前参数 减去步长(即:学习率*梯度)求得新的参数 ,当梯度变为0时求得最佳参数。
加上还是减去步长其实取决于梯度值,在梯度下降法中:
- 梯度值<0时参数应加上步长;
- 梯度值>0时参数应减去步长。
2.2 学习率选取
2.3 小批量随机梯度下降
简单来说就是随机取 的样本用于计算梯度,再用该梯度计算步长来优化参数。