Datawhale X 李宏毅苹果书 AI夏令营：线性模型（模型确定与优化）

最新推荐文章于 2024-09-29 22:27:37 发布

Dwayneeeeee

最新推荐文章于 2024-09-29 22:27:37 发布

阅读量863

点赞数 23

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/2201_75731519/article/details/141636834

版权

线性模型

上篇确定的模型不行，它只能够看前一天，所以我们要通过领域知识去修改模型。

通过真实的数据以得到一个结论是，每隔 7 天有一个循环。所以要把前 7 天的观看人次都列入考虑，写了一个新的模型：

xj 代表第 j 天的观看测试，wj代表权重。再利用用梯度下降，算出 w 跟 b 的最优值。

这种把输入的特征 x 乘上一个权重，再加上一个偏置就得到预测的结果的模型称为线性模型（linear model）。

线性模型优化

线性模型也许过于简单，x1 跟 y 可能中间有比较复杂的关系，目前不管如何设置 w 跟 b，永远制造不出红色线，永远无法用线性模型制造红色线。显然线性模型有很大的限制，这一种来自于模型的限制称为模型的偏差，无法模拟真实的情况。所以需要写一个更复杂的、更有灵活性的、有未知参数的函数。

红色线，即分段线性曲线（piecewise linear curve）可以看作是一个常数，再加上一堆蓝色的函数。分段线性曲线可以用常数项加一大堆的蓝色函数组合出来，只是用的蓝色函数不一定一样。要有很多不同的蓝色函数，加上一个常数以后就可以组出这些分段线性曲线。如果分段线性曲线越复杂，转折的点越多，所需的蓝色函数就越多。

如果点取的够多或点取的位置适当，分段线性曲线就可以逼近这一个连续的曲线，就可以逼近有角度的、有弧度的这一条曲线。

假设 x 跟 y 的关系非常复杂也没关系，就想办法写一个带有未知数的函数。直接写 HardSigmoid 不是很容易，但是可以用一条曲线来理解它，用 Sigmoid 函数来逼近 Hard Sigmoid，如图 1.10 所示。Sigmoid 函数的表达式为

其横轴输入是 x1，输出是 y，c 为常数。

用 Sigmoid 函数逼近 Hard Sigmoid 函数

调整这里的 b、w 和 c 可以制造各种不同形状的 Sigmoid 函数，用各种不同形状的 Sigmoid函数去逼近 Hard Sigmoid 函数。

所以这边每一个式子都代表了一个不同蓝色的函数，求和就是把不同的蓝色的函数相加，再加一个常数 b.制造不同的蓝色的函数叠起来以后，就可以制造出不同的红色的曲线，就可以制造出不同的分段线性曲线，逼近各式各样不同的连续函数。此外，我们可以不只用一个特征 x1，可以用多个特征代入不同的 c, b, w，组合出各种不同的函数，从而得到更有灵活性（flexibility）的函数。

接下来要定义损失。之前是 L(w, b)，因为 w 跟 b 是未知的。现在未知的参数很多了，再把它一个一个列出来太累了，所以直接用 θ 来统设所有的参数，所以损失函数就变成 L(θ)。损失函数能够判断 θ 的好坏，其计算方法跟刚才只有两个参数的时候是一样的。先给定 θ 的值，即某一组 W, b, cT, b 的值，再把一种特征 x 代进去，得到估测出来的 y，再计算一下跟真实的标签之间的误差 e。把所有的误差通通加起来，就得到损失。

模型变形

其实还可以对模型做更多的变形，不一定要把 Hard Sigmoid 换成 Soft Sigmoid。HardSigmoid 可以看作是两个修正线性单元（Rectified Linear Unit，ReLU）的加总，ReLU 的图像有一个水平的线，走到某个地方有一个转折的点，变成一个斜坡，其对应的公式为

max(0, b + wx1) 是指看 0 跟 b + wx1 谁比较大，比较大的会被当做输出，通过 w, b, c 可以挪动其位置和斜率。把两个 ReLU 叠起来就可以变成 Hard 的 Sigmoid，想要用 ReLU，就把 Sigmoid 的地方，换成max(0, bi + wijxj )。

在机器学习里面，Sigmoid 或 ReLU 称为激活函数（activation function）。

使用 1000 个 ReLU 作为模型，在训练数据上损失更低了一些，但是在没看过的数据上，损失没有变化。

Sigmoid 或 ReLU 称为神经元（neuron），很多的神经元称为神经网络（neural network）。人脑中就是有很多神经元，很多神经元串起来就是一个神经网络，跟人脑是一样的。人工智能就是在模拟人脑。每一排称为一层，称为隐藏层（hiddenlayer），很多的隐藏层就“深”，这套技术称为深度学习。

在训练数据和测试数据上的结果是不一致的，这种情况称为过拟合（overfitting）。

深度学习的训练会用到反向传播（BackPropagation，BP），其实它就是比较有效率、算梯度的方法。