Datawhale X 李宏毅苹果书 AI夏令营入门 Task2-了解线性模型

最新推荐文章于 2024-09-30 21:48:12 发布

lll1773385

最新推荐文章于 2024-09-30 21:48:12 发布

阅读量760

点赞数 5

文章标签：人工智能

本文链接：https://blog.csdn.net/lll1773385/article/details/141711637

版权

周期性数据模型的探索
在分析视频观看数据时，我们发现了一个明显的周期性模式，大约每7天出现一次波动。这促使我们寻找一个更精细的预测模型。起初，我们尝试了一个简单的线性模型，即 y=b+wx1y=b+wx1，但效果并不理想。通过深入分析数据，我们认识到需要将前7天的观看数据纳入考虑，从而构建了一个更复杂的模型。

分段线性模型的构建
我们发现，通过将多个简单的线性函数组合起来，可以模拟出复杂的数据变化。这些线性段通过特定的函数（比如HardSigmoid）连接，形成分段线性曲线。这种曲线由一个常数项加上多个具有不同斜率的线性函数构成，每一段都对应数据中的一个特定区间。

分段线性曲线（piecewiselinearcurve）可以看作是一个常数，再加上一堆蓝色的函数。分段线性曲线可以用常数项加一大堆的蓝色函数组合出来，只是用的蓝色函数不一定一样。要有很多不同的蓝色函数，加上一个常数以后就可以组出这些分段线性曲线。
如果分段线性曲线越复杂，转折的点越多，所需的蓝色函数就越多。

足够的蓝色函数相加就可以变成任何连续的曲线。

模型的优化与泛化
通过调整模型中的参数 b,w,cb,w,c，我们可以创建出不同形状的Sigmoid函数来逼近HardSigmoid函数。这不仅增加了模型的灵活性，还提高了其对复杂数据关系的适应能力。

我们可以不只用一个特征 x1，可以用多个特征代入不同的 c, b, w，组合出各种不同的函数，从而得到更有灵活性（flexibility）的函数。

把 W 的每一列或每一行“拼”成一个长的向量，把 b, cT, b
” 拼” 上来，这个长的向量直接用 θ 来表示。所有的未知的参数，一律统称 θ。
接下来计算每一个未知的参数对 L 的微分，得到向量 g，即可以让损失变低的函数
g = ∇L (θ0)

梯度下降法的应用
在优化模型参数时，我们采用了梯度下降法。这意味着我们将数据分批处理，并在每个批次上计算损失函数的梯度，然后更新参数以减少损失。这个过程重复进行，直到找到最优解。

实现上有个细节的问题，实际使用梯度下降的时，会把 N 笔数据随机分成一个一个的批量（batch） ，一组一组的。
把所有的批量都看过一次，称为一个回合（epoch） ，每一次更新参数叫做一次更新。

模型的复杂性与深度学习
随着模型复杂性的增加，我们开始探索更深的神经网络结构。神经网络由多个神经元（或称为激活函数，如Sigmoid和ReLU）组成，它们通过层（hidden layers）连接。深度学习的核心在于构建更深的网络结构，以提高模型的预测能力。然而，我们也需要注意避免过拟合，即模型在训练数据上表现良好，但在未见过的数据上表现不佳。

Hard Sigmoid 可以看作是两个修正线性单元（Rectified Linear Unit， ReLU）的加总， ReLU 的
图像有一个水平的线，走到某个地方有一个转折的点，变成一个斜坡，其对应的公式为
c ∗ max(0, b + wx1)
2 个 ReLU 才能够合成一个 Hard Sigmoid。要合成 i 个 Hard Sigmoid，需要 i 个 Sigmoid，如果 ReLU 要做到一样的事情，则需要 2i 个 ReLU.

Sigmoid和ReLU这样的函数是构成神经网络的基础，它们就像是网络中的神经元。当这些神经元以复杂的方式相互连接，就形成了神经网络，其结构和功能都与人类大脑中的神经网络相似，人工智能正是通过这种方式来模拟人脑的工作机制。虽然神经网络技术早在20世纪80和90年代就已经存在，但随着深度学习概念的提出，这一领域迎来了新的发展机遇。深度学习的核心在于构建多层的网络结构，其中每一层都由多个神经元组成，称为隐藏层。网络的深度，也就是隐藏层的数量，直接影响了其处理复杂问题的能力。从2012年的AlexNet，到后来的VGG、GoogleNet，再到ResNet，网络的层数和性能都在不断提升，错误率也在逐渐降低。然而，随着网络深度的增加，也带来了过拟合的风险，即模型在训练数据上表现优异，但在未见过的数据上却表现不佳。因此，在追求更深层次的网络结构的同时也存在过拟合的问题。