第二天学习笔记：Datawhale X 李宏毅苹果书 AI夏令营

V6T1Z4

于 2024-08-29 14:21:20 发布

阅读量386

点赞数 8

文章标签：人工智能

本文链接：https://blog.csdn.net/V6T1Z4/article/details/141676881

版权

今天学的有些小兴奋，终于解锁了很多熟悉但不明就里的术语。

天呢，原来ReLU是“修正线性单元”的意思！Rectified Linear Unit！

但是呢，也有不大对付的地方：好几个地方前言不搭后语。

容我一一道来。

今天就顺序边读边记：

线性模型（linear model）== 把模型输入的特征 x 乘上一个权重，再加上一个偏置就得到预测的结果，这样的模型称为线性模型。

1.2.1 分段线性曲线

Hard Sigmoid （Note：文中这里是第一次提这个英文词组很突兀，就那么生硬的摆在那里了）函数的特性是当输入的值，当 x 轴的值小于某一个阈值（某个定值）的时候，大于另外一个定值阈值的时候，中间有一个斜坡。所以它是先水平的，再斜坡，再水平的。

分段线性曲线（piecewise linear curve）可以看作是一个常数，再加上一堆不同线性函数。如果分段线性曲线越复杂，转折的点越多，所需的不同线性函数就越多。

Sigmoid 函数就是 S 型的函数。因为它长得是有点像 S 型，所以叫它 Sigmoid 函数

其横轴输入是 x1，输出是 y，c 为常数。

如果 x1 的值，趋近于无穷大的时候，e−(b+wx1) 这一项就会消失，当 x1 非常大的时候，这一条就会收敛在高度为 c 的地方。如果 x1 负的非常大的时候，分母的地方就会非常大，y的值就会趋近于 0

wij 代表在第 i 个 Sigmoid 里面，乘给第 j 个特征的权重，w 的第一个下标代表是现在在考虑的是第一个 Sigmoid 函数

我们可以用矩阵跟向量相乘的方法，写一个比较简洁的写法。

Sigmoid 的数量是一个超参数。

所有的未知的参数，一律统称 θ。损失函数就变成 L(θ)。

要找到 θ 让损失越小越好，可以让损失最小的一组 θ 称为 θ∗

把 N 笔数据随机分成一个一个的批量（batch），一组一组的

把所有的批量都看过一次，称为一个回合（epoch），每一次更新参数叫做一次更新。

一个回合的训练，更新了几次参数？取决于它的批量大小有多大。

1.2.2 模型变形

HardSigmoid 可以看作是两个修正线性单元（Rectified Linear Unit，ReLU）的加总，ReLU 的图像有一个水平的线，走到某个地方有一个转折的点，变成一个斜坡，其对应的公式为

（note：☀️老天爷，看到这里激动的我嘎嘎的，已经2年了接触这个概念。一直get不到这么缩写的点儿。今儿终于得偿所愿了！！！给作者送花🌹🌹🌹）

在机器学习里面，Sigmoid 或 ReLU 称为激活函数（activation function）～～～～（note：书里应该细说一下为啥叫激活函数。激活是什么意思？一般激活是开始live的意思，但是这个函数后边会被重复很多次啊，感觉应该叫复活函数=重复活动/重复劳作：D）

Sigmoid 或 ReLU 称为神经元（neuron），很多的神经元称为神经网络（neural network）～～～（note：神经元的进入也很尬。突然就冒出来了。硬给俩函数 or say 每一个函数扣了个名字，硬扣！）

每一排称为一层，称为隐藏层（hiddenlayer），很多的隐藏层就“深”，这套技术称为深度学习。（Note：说每一排感觉不确切。万一就一排呢？也叫隐藏层吗？深这里也不明确。作者应该说‘超过3层以上的机器学习叫深度学习’。你给它一个数量限度，才一目了然。）

人们把神经网络越叠越多越叠越深，2012 年的 AlexNet 有 8 层；两年之后 VGG 有 19 层；后来 GoogleNet 有 22 层；残差网络（Residual Network，ResNet）有 152 层；现在网络都是叠几百层

在训练数据和测试数据上的结果是不一致的，这种情况称为过拟合（overfitting）。（Note：感觉这个概念解释的非常的不好。书里边很多不一致的例子了。但不一定都是过拟合啊。可能本来就是训练不够儿造成的不一致呢）

深度学习的训练会用到反向传播（BackPropagation，BP），其实它就是比较有效率、算梯度的方法。（Note：这个反响传播的概念，就像是‘我给你把这个放这儿了啊，反正我给你拿出来放着了’。🐣且慢，大哥，你为啥没有前言也没有后语的给它晾这儿了？它咋来的？具体嘛意思啊？晾的目的是？？？）

1.2.3 机器学习框架

测试集就是只有 x 没有 y。

要拿训练集来训练模型，训练的过程分 3 步：

关注