Datawhale X 李宏毅苹果书 AI夏令营 入门 Task2-了解线性模型

周期性数据模型的探索
在分析视频观看数据时,我们发现了一个明显的周期性模式,大约每7天出现一次波动。这促使我们寻找一个更精细的预测模型。起初,我们尝试了一个简单的线性模型,即 y=b+wx1y=b+wx1​,但效果并不理想。通过深入分析数据,我们认识到需要将前7天的观看数据纳入考虑,从而构建了一个更复杂的模型。

分段线性模型的构建
我们发现,通过将多个简单的线性函数组合起来,可以模拟出复杂的数据变化。这些线性段通过特定的函数(比如HardSigmoid)连接,形成分段线性曲线。这种曲线由一个常数项加上多个具有不同斜率的线性函数构成,每一段都对应数据中的一个特定区间。

分段线性曲线(piecewiselinearcurve)可以看作是一个常数,再加上一堆蓝色的函数。分段线性曲线可以用常数项加一大堆的蓝色函数组合出来,只是用的蓝色函数不一定一样。要有很多不同的蓝色函数,加上一个常数以后就可以组出这些分段线性曲线。
如果分段线性曲线越复杂,转折的点越多,所需的蓝色函数就越多。

足够的蓝色函数相加就可以变成任何连续的曲线。

模型的优化与泛化
通过调整模型中的参数 b,w,cb,w,c,我们可以创建出不同形状的Sigmoid函数来逼近HardSigmoid函数。这不仅增加了模型的灵活性,还提高了其对复杂数据关系的适应能力。

我们可以不只用一个特征 x1,可以用多个特征代入不同的 c, b, w,组合出各种不同的函数,从而得到更有灵活性(flexibility) 的函数。

把 W 的每一列或每一行“拼”成一个长的向量,把 b, cT, b
” 拼” 上来,这个长的向量直接用 θ 来表示。所有的未知的参数,一律统称 θ。
接下来计算每一个未知的参数对 L 的微分,得到向量 g,即可以让损失变低的函数
g = ∇L (θ0)

梯度下降法的应用
在优化模型参数时,我们采用了梯度下降法。这意味着我们将数据分批处理,并在每个批次上计算损失函数的梯度,然后更新参数以减少损失。这个过程重复进行,直到找到最优解。

实现上有个细节的问题,实际使用梯度下降的时,会把 N 笔数据随机分成一个一个的批量(batch) ,一组一组的。
把所有的批量都看过一次,称为一个回合(epoch) ,每一次更新参数叫做一次更新。

模型的复杂性与深度学习
随着模型复杂性的增加,我们开始探索更深的神经网络结构。神经网络由多个神经元(或称为激活函数,如Sigmoid和ReLU)组成,它们通过层(hidden layers)连接。深度学习的核心在于构建更深的网络结构,以提高模型的预测能力。然而,我们也需要注意避免过拟合,即模型在训练数据上表现良好,但在未见过的数据上表现不佳。

Hard Sigmoid 可以看作是两个修正线性单元(Rectified Linear Unit, ReLU) 的加总, ReLU 的
图像有一个水平的线,走到某个地方有一个转折的点,变成一个斜坡,其对应的公式为
c ∗ max(0, b + wx1)
2 个 ReLU 才能够合成一个 Hard Sigmoid。要合成 i 个 Hard Sigmoid,需要 i 个 Sigmoid,如果 ReLU 要做到一样的事情,则需要 2i 个 ReLU.

Sigmoid和ReLU这样的函数是构成神经网络的基础,它们就像是网络中的神经元。当这些神经元以复杂的方式相互连接,就形成了神经网络,其结构和功能都与人类大脑中的神经网络相似,人工智能正是通过这种方式来模拟人脑的工作机制。虽然神经网络技术早在20世纪80和90年代就已经存在,但随着深度学习概念的提出,这一领域迎来了新的发展机遇。深度学习的核心在于构建多层的网络结构,其中每一层都由多个神经元组成,称为隐藏层。网络的深度,也就是隐藏层的数量,直接影响了其处理复杂问题的能力。从2012年的AlexNet,到后来的VGG、GoogleNet,再到ResNet,网络的层数和性能都在不断提升,错误率也在逐渐降低。然而,随着网络深度的增加,也带来了过拟合的风险,即模型在训练数据上表现优异,但在未见过的数据上却表现不佳。因此,在追求更深层次的网络结构的同时也存在过拟合的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值