ccc-Regression-李宏毅(1)

最新推荐文章于 2024-04-22 16:55:14 发布

扔出去的回旋镖

最新推荐文章于 2024-04-22 16:55:14 发布

阅读量570

点赞数

分类专栏：深度学习-李宏毅文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/liubi32326/article/details/128920476

版权

深度学习-李宏毅专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Regression

文章目录

- - Regression

解释两个或多个变量间是否相关、相关方向与强度

课程中老师通过对宝可梦的分析进行推进，预测宝可梦进化之后的CP值

宝可梦预测第一次尝试

Step 1: Model
Linear model： $y=b+\sum{w_ix_i}$
Step 2: Goodness of Function
即估计函数的好坏（Loss function），一个输入函数的函数,表示如下
$L(f)=\sum_{n=1}^{10}(\hat y^n-f(x_{cp}^n))^2$
在这里插入图片描述
将其Visualization表示如下：

要找到最合适点（每个点都表示一个函数），就是找到离两边区间最大的点
Step 3: Best Function&Gradient Descent
找到最佳函数，表示如下：
$f^*=arg\min_f{L(f)}\\ w^*,b^*=arg\min_{w,b}{L(w,b)}\\=arg\min_{w,b}\sum_{n=1}^{10}{(\hat y^n-f(x_{cp}^n))^2}$
其中通过Gradient Descent（梯度下降）方法来寻找

对于一个参数的损失函数L(w)而言，随机选择一个初始点 $w^0$ ，计算 $\frac{dL}{dw}|_{w=w^0}$ ，更新 $w^1=w^0-\eta \frac{dL}{dw}|_{w=w^0}$ （ $\eta$ 表示learning rate）,一直到找到Local minima（本次极值），但可能找不到global minima（全局极值）
对于多个参数的损失函数而言，计算梯度 $\triangledown L$ ，分别更新每个参数，同样存在可能找不到global minima的问题

基本偏微分计算过程如下：
$L(w,b)=\sum_{n=1}^{10}(\hat y^n-(b+w\cdot x_{cp}^n))^2 \\ \frac{\partial L}{\partial w}=\sum_{n=1}^{10}2{(\hat y^n-(b+w\cdot x_{cp}^n))}(-x_{cp}^n) \\ \frac{\partial L}{\partial b}=\sum_{n=1}^{10}2{(\hat y^n-(b+w\cdot x_{cp}^n))}(-1)$

Model 结果探讨

通过上述步骤选择的函数在训练集结果如下
在这里插入图片描述
在测试集的结果如下：

将一次线性Model升级成二次Model结果如下：

在这里插入图片描述
继续升级！：

升级。。：

可以看到过拟合现象开始出现，即Overfitting

宝可梦预测第二次尝试

依据：进化后的CP值不仅仅只是进化前的CP相关，还可能与生命值，种类，重量，身高等相关，将这些都考虑到建立的Model中再次尝试
Back to step 1: Redesign the Model Again
在这里插入图片描述
可以发现模型复杂度提高后，直接就出现了过拟合现象，可以通过加入正则化来缓解这种问题，使模型更加平滑
Back to step 2: Regularization
加入正则化项后的式子如下：
$L=\sum_{n}(\hat y^n-(b+\sum{w_ix_i}))^2+\lambda\sum(w_i)^2$
我们偏向于更smoother的函数，这就需要smaller的 $w_i$ ,通过不断测试得到不同 $\lambda$ 下训练集和测试集结果，选择的最加参数和结果为红框交叉处
在这里插入图片描述

误差来源探究

基本上都是由bias和variance导致的，中文分别为偏差和方差。它们对于误差的影响可以如下表示：
在这里插入图片描述
偏差决定预测值与真实值的误差大小，简单模型偏差较大但方差小，即不易被训练数据影响。方差决定预测值分布范围，复杂模型往往偏差较小但方差大，容易产生过拟合现象，下面的例子比较直观
对于这个宝可梦预测而言，偏差和方差的关系图如下：
在这里插入图片描述