1. 《动手学深度学习》之线性回归神经网络

最新推荐文章于 2024-07-22 11:48:26 发布

努力学AI的小曾

最新推荐文章于 2024-07-22 11:48:26 发布

阅读量105

点赞数

分类专栏：李沐《动手学深度学习2》文章标签：深度学习线性回归神经网络

本文链接：https://blog.csdn.net/qq_52921710/article/details/129649386

版权

李沐《动手学深度学习2》专栏收录该内容

3 篇文章 0 订阅

订阅专栏

《动手学深度学习2》之线性回归神经网络

0. 推荐资料
1. 前言
2. 《动手深度学习》第3章----线性回归神经网络学习总结
3. 总结

0. 推荐资料

首先感谢在Datawhale的组织下，联合了李沐老师一起举办了本次的学习计划，在本次计划下也记录一下自己的学习过程。
本次学习教程的参考书籍：动手学深度学习
本次学习教程的参考视频：李沐老师b站视频

1. 前言

本书个人认为需要有线性、高等、概率论的基础，以及掌握一些基础的Pytorch框架知识，至少达到能看懂书中代码的程度。

2. 《动手深度学习》第3章----线性回归神经网络学习总结

线性回归及其损失函数、随机梯度下降

线性回归，最简单的理解就是初中学的y=ax+b，其中我们称a是x的权重，b称为偏置。现在我们拓展一下，现实生活中我们拿到的数据基本都是高维的，即有很多个特征，则可以进一步表示为 $y=\omega_1x_1+\omega_2x_2+...+\omega_nx_n+b$ ，也可以换一个表达式== $y=\omega^Tx^{(i)}+b$ ==，其中 $\omega^T=[\omega_1,\omega_2...\omega_n],x^{(i)}=[x_1,x_2,...,x_n]^T$ 。

看到上面的表达式，可以知道x是我们输入的，称为数据，我们的目的是找到一组参数 $\omega$ 和b来拟合数据，可以理解为找到一个最好的模型去拟合数据，得到的y称为预测值，记为 $\widehat{y}$ ，那么最终公式就变为： $\widehat{y}=\omega^Tx^{(i)}+b$ 。我们都知道预测值与真实值之前总会出现误差，即 $\widehat{y}\not=y$ ，这时候就有了损失函数(loss function)，损失函数能够量化目标的实际值与预测值之间的差距，通常线性回归最常用的就是平方误差，其公式为： $l^{(i)}(\omega,b)=\frac{1}{2}(\widehat{y}^{(i)}-y^{(i)})^2$ ，其中 $\widehat{y}^{(i)}$ 表示样本i的预测值， $y^{(i)}$ 表示其相应的真实值。

在这里插入图片描述

如上图所示，就可以很好地帮助我们理解损失函数，蓝色圆圈表示真实的值，黑线就是我们模型拟合的结果，可以看两者之间存在一定的距离，即误差(如果模型把每个点都连接起来了，称为过拟合)，前面说过我们的目标是找到一组参数 $\omega$ 和b来拟合数据，找到这组参数 $\omega^*,b^*$ ，能最小化在所有训练样本上的损失均值，怎么找呢？其公式为
$L(\omega,b)=\frac{1}{n}\sum_{i=1}^{n}l^{(i)}(w,b)=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{2}(\omega^Tx^{(i)}+b-y^{(i)})^2$ ， 通过该公式找出一组参数 $\omega^*,b^*$ 能最小化在所有训练样本上的总损失。

梯度下降： 它通过不断地在损失函数递减的方向上更新参数来降低误差，换句话就是想办法使真实值和预测值之间差异最小，因此就需要确定优化的方向以及实际走一步要多长，最常用的方法就是小批量随机梯度下降：其思想是因为每次更新都需要计算训练集上所有的样本，耗费时间太长，那么就抽取一部分样本来更新参数，用数学公式表示如下图：
在这里插入图片描述

其中

$∣ β ∣$ 表示每个小批量中的样本数，这也称为批量大小**(batch size)**
- batchsize不能太大：内存消耗增加；浪费计算资源，一个极端的情况是可能会重复选取很多差不多的样本，浪费计算资源
- b也不能太小：每次计算量太小，很难以并行，不能最大限度利用GPU资源
η表示学习率（learning rate）。

常见的其他梯度下降策略有：

在这里插入图片描述

线性回归简单实现

这里咱偷个懒，直接粘贴李沐老师的代码了，有两个代码：

Softmax及其损失函数

Softmax是用来解决分类问题的，一般在模型的输出层最后一层都会使用softmax，其思想是将多分类的结果以概率的形式展现出来，或者说你输入了一张猫的图片到模型，而模型有{猫，狗，鸡}三种类别，那么softmax会返回出三个类别的概率值(总和为1且每个类别不为负数)，比如{0.8,0.1,0.1}，然后选择概率最大的值并输出其类别：猫，到这里应该对softmax有一定了解了吧。
在这里插入图片描述

Softmax定义如下
$softmax(X)_{ij}=\frac{exp(X_{ij})}{\sum_{k} exp(X_{ik})}$

这里推荐一篇文章，帮助学习：详解softmax函数以及相关求导过程 - 知乎 (zhihu.com)

对数似然损失函数： softmax输出结果是对给定任意输入x的每个类的条件概率x。假设整个数据集{X,Y}有n个样本，索引i的样本有特征向量 $x^{(i)}$ 和独热标签向量 $y^{(i)}$ 组成，则将预测值与真实值进行比较
$P(Y|X)=\prod_{i=1}^{n}P(y^{(i)}|x^{(i)})$
然后进行对数转化，

其中，任何标签y和预测值 $\widehat{y}$ 的损失函数为： $l(y,\hat{y})=-\sum_{i}y_{i}log\hat{y_{i}}=-log\hat{y_y}$ ，该函数也通常被称为交叉熵损失（cross-entropy loss）。

在这里插入图片描述

3. 总结

以上就是关于本书的第3章总结，后续会更新第4章的内容。

努力学AI的小曾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
1. 《动手学深度学习》之线性回归神经网络

本书个人认为需要有线性、高等、概率论的基础，以及掌握一些基础的Pytorch框架知识，至少达到能看懂书中代码的程度。线性回归，最简单的理解就是初中学的y=ax+b，其中我们称a是x的权重，b称为偏置。现在我们拓展一下，现实生活中我们拿到的数据基本都是高维的，即有很多个特征，则可以进一步表示为yω1x1ω2x2ωnxnbyω1x1ω2x2...ωnxnb，也可以换一个表达式==yωTxib。
复制链接

扫一扫