Datawhale X 李宏毅苹果书 AI夏令营 Task02：线性模型

码保果

已于 2024-08-31 23:15:01 修改

阅读量662

点赞数 27

文章标签：人工智能

于 2024-08-31 23:11:40 首次发布

本文链接：https://blog.csdn.net/JayOxford/article/details/141760605

版权

Datawhale X 李宏毅苹果书 AI夏令营 Task02：线性模型

请添加图片描述

$\sum^{7}_{j=1} w_jx_j$
其中 $x_j$ 代表第 $j$ 天的观看测试，也就是 7 天前的数据，通通乘上不同的权重 $w_j$ ，加起来，再加上偏置得到预测的结果。考虑更多天没有办法再更降低损失了。看来考虑天数这件事，也许已经到了一个极限。这些模型都是把输入的特征 $x$ 乘上一个权重，再加上一个偏置就得到预测的结果，这样的模型称为线性模型（linear model）。接下来会看如何把线性模型做得更好

分段线性曲线

分段曲线就是只要有足够的线性函数把它加起来，就可以变成任何连续的曲线。

请添加图片描述

而这里可以用一个用 Sigmoid 函数来逼近 Hard Sigmoid，Sigmoid 函数的表达式为：
$c\frac{1}{1 + e^{-(b+wx_1)}}$
如果 $x_1$ 的值，趋近于无穷大的时候， $e^{−(b+wx_1)}$ 这一项就会消失，当 $x_1$ 非常大的时候，这一条就会收敛在高度为 $c$ 的地方。如果 $x_1$ 负的非常大的时候，分母的地方就会非常大， $y$ 的值就会趋近于 0。调整这里的 b、w 和 c 可以制造各种不同形状的 Sigmoid 函数，用各种不同形状的 Sigmoid函数去逼近 Hard Sigmoid 函数

请添加图片描述

线性代数表示方式：
$c^T \sigma(b + Wx)$
第一个 $b$ 常数，第二个 $b$ 是以一个向量

将未知量 $w, b$ 用 $ \theta $ 代替，这里将Loss函数改写为 $L(\theta)$ ，计算方法依旧不变，给一组 $b, c^T, b, W, x$ 计算结果 $y$ 与真实值 $\hat{y}$ 之间的差距，并累计求平均、
$\frac{1}{N}\sum_{n}e_n$

$\theta = \begin{bmatrix} \theta_1 \\ \theta_2 \\ \theta_3 \\ ... \end{bmatrix}$

优化新模型
$\theta^* = arg min_\theta L$

随机选一个 $ \theta^0 $
计算每一个 $\theta$ 的 “评分” 来最终接近最优解，用向量 $g$ 来表示，也成为 gradient （梯度）
$\begin{bmatrix} \frac{\delta L}{\delta \theta_1}|_{\theta=\theta^0} \\ \frac{\delta L}{\delta \theta_2}|_{\theta=\theta^0} \\ ... \end{bmatrix}$

$\nabla L(\theta^0)$

接下来对 $\theta$ 进行更新

$\leftarrow \begin{bmatrix} \theta_1^3 \\ \theta_2^3 \\ ... \end{bmatrix} \leftarrow \begin{bmatrix} \theta_1^2 \\ \theta_2^2 \\ ... \end{bmatrix} \leftarrow \begin{bmatrix} \theta_1^1 \\ \theta_2^1 \\ ... \end{bmatrix} \leftarrow \begin{bmatrix} \theta_1^0 \\ \theta_2^0 \\ ... \end{bmatrix} - \begin{bmatrix} \eta\frac{\delta L}{\delta \theta_1}|_{\theta=\theta^0} \\ \eta\frac{\delta L}{\delta \theta_2}|_{\theta=\theta^0} \\ ... \end{bmatrix}$

$\leftarrow \theta^3 \leftarrow \theta^2 \leftarrow \theta^1 \leftarrow \theta^0 - \eta g$
根据 gradient 将 $\theta^0$ 更新为 $\theta^1$ ，再算再更，再算再更，当然我们不是拿所有数据一次直接算一个gradient，而是将其分为多个batch，再用其算每个batch对应的gradient，再进行update，把所有的数据进行一遍更新称为epoch
请添加图片描述

当然不止Sigmoid一种函数，还可以用Rectified Linear Unit(ReLU)
请添加图片描述
所以两个ReLU才是一个Sigmoid，这就是Activation Function激活函数
$\sum_i c_i sigmoid(b_i + \sum_j w_{ij} x_j)$

$\sum_{2i} c_i max(0, b_i + \sum_j w_{ij} x_j)$

反复，反复多次即为深度学习：
请添加图片描述
当然训练中出现Train Data预测在变好，但在未见Data上并没变好，即为过拟合Overfitting

码保果

关注

27
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营 Task02：线性模型

ybj1∑7wjxj其中xj代表第j天的观看测试，也就是 7 天前的数据，通通乘上不同的权重wj，加起来，再加上偏置得到预测的结果。考虑更多天没有办法再更降低损失了。看来考虑天数这件事，也许已经到了一个极限。这些模型都是把输入的特征x乘上一个权重，再加上一个偏置就得到预测的结果，这样的模型称为。接下来会看如何把线性模型做得更好。
复制链接

扫一扫