线性神经网络学习笔记

qq_44775618

已于 2022-10-11 16:32:41 修改

阅读量84

点赞数

文章标签：神经网络学习机器学习

于 2022-10-08 10:10:04 首次发布

原文链接：http://zh.d2l.ai/chapter_linear-networks/linear-regression.html

版权

线性神经网络学习笔记

线性回归

线性回归

线性回归基于几个简单的假设：
1、假设自变量x和因变量y之间的关系是线性的，即y可以表示x中元素的加权和，这里通常允许包含观测值的一些噪声。
2、假设任何噪音都比较正常，如噪音遵循正太分布。

参数

w：权重
b：偏置
c：噪音
x：样本
y：预测结果
$\hat{y} = w_1 x_1 + ... + w_d x_d + b.$

模型关键点

解决的问题：以将自变量与应变量以线性关系的假设来进行预测或推断

功能：找到尽可能精确的值

超参：学习率、批量大小

输入（类型）：x样本、y样本

输出（类型）：w权重、b偏置、c噪音

损失函数

是使用模型拟合数据的度量。
量化目标和实际值与预测值之间的差距。
回归问题中最常用的损失函数是平常误差函数。
$l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.$
为了度量模型在整个数据集上的质量，我们需计算在训练集n个样本上的平均损失：
$L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.$

目的

寻找到一组参数（ $\mathbf{w}^*, b^*$ ）使得在所有训练样本上的总损失最小：
$\mathbf{w}^*, b^* = \operatorname*{argmin}_{\mathbf{w}, b}\ L(\mathbf{w}, b).$

随机梯度下降

梯度下降——几乎可以优化所有深度学习模型，它通不断在损失函数递减的方向上更新参数来降低误差。
梯度下降最简单的用法是计算损失函数（数据集中所有样本的损失均值）关于模型的导数（也叫梯度）。

小批量随机梯度下降

因为在每一次更新参数前，我们必须遍历整个数据集。因此我们通常会在每次需要计算更新的时候随机抽取一小批样本，这叫做小批量随机梯度下降。

参数

$\mathcal{B}$ :批量大小
$\eta$ :学习率

算法步骤：

1、初始化模型参数的值，如随机初始化
2、从数据集中随机抽取小批量样本且在负梯度的方向上更新参数，并不断迭代这一步骤
$\begin{split}\begin{aligned} \mathbf{w} &\leftarrow \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{\mathbf{w}} l^{(i)}(\mathbf{w}, b) = \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right),\\ b &\leftarrow b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_b l^{(i)}(\mathbf{w}, b) = b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right). \end{aligned}\end{split}$