【学习笔记】李宏毅老师机器学习2020_Regression

最新推荐文章于 2022-08-15 21:18:17 发布

Fiona_9999

最新推荐文章于 2022-08-15 21:18:17 发布

阅读量308

点赞数

分类专栏：李宏毅机器学习笔记

本文链接：https://blog.csdn.net/Fiona_9999/article/details/107493510

版权

李宏毅机器学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Regression

2020.8.6

引入：回归可以做什么

股票预测系统（Stock Market Forecast）

输入：过去十年股票起伏资料
输出：明天道琼工业指数
无人驾驶车（Self-driving Car）

输入：无人驾驶车传感器数据
输出：方向盘角度
推荐系统（Recommendation）

实例应用：宝可梦CP值预测

预测进化后宝可梦的CP（Combat Power）值，从而判断是否进化这只宝可梦
在这里插入图片描述
变量定义： $x_{cp}$ 表示某一只宝可梦进化前的战斗力， $x_s$ 表示宝可梦的种类， $x_{hp}$ 表示宝可梦的生命值， $x_w$ 表示宝可梦的重量， $x_h$ 表示宝可梦的高度， $y$ 表示进化后的战斗力
三个步骤：找个模型、定义模型好坏，选出最好的模型

Step1: Model 找个模型

A set of function
先找一个简单的模型： $y=b+w·x_{cp}$ 其中 $x_{cp}$ 代表进化前的CP值， $y$ 代表进化后的CP值， $w$ 和 $b$ 是未知参数，填进不同的数值得到不同的函数。
这是一种线性模型（Linear Model），遵循 $y=b+\sum w_i x_i$ 其中 $x_i$ 表示输入的某个属性，称为特征（feature），如宝可梦的战斗力、体重等； $w_i$ 表示权重（weight）； $b$ 表示偏置（bias）

Step 2: Goodness of Function 定义模型好坏

Training Data
$x^1$ 代表一个完整的输入（function input）， $\hat{y}^1$ 代表实际观测值（function output）， $y^1$ 代表函数的预测值。上标代表一个完整的输入，下标代表一个输入的某个属性或特征。
我的理解是 $\hat{y}$ 是真实值， $y$ 是预测值
在这里插入图片描述
定义损失函数（Loss function）来衡量函数的好坏。损失函数是函数的函数，输入是一个函数，输出是这个函数的好坏程度。损失函数输出的值越小，代表输入函数的拟合效果越好。本质是输入 $w$ 和 $b$ ，也可以说是衡量一组参数的好坏。
$L(f)=\sum_{n=1}^{10}(\hat{y}^n-f(x_{cp}^n))^2$ 即 $=\sum_{n=1}^{10}(\hat{y}^n-(b+w·x_{cp}^n))^2$ 用真正的输出 $\hat{y}^n$ 减去预测的输出 $b+w·x_{cp}^n$ 再平方，得到估测的误差。本例中共10个样本，因此 $n$ 的范围为1至10。

Step 3: Best Function 选出最好的模型 - Gradient Descent 梯度下降算法

Goodness of funtion f
从函数集合中挑选最好的函数，即找到一个 $f$ 让 $L (f)$ 最小，写作 $f^*$ 。 $f^*=arg\min_{f}L(f)$ $w^*,b^*=arg\min_{w,b}L(w,b)=arg\min_{w,b}\sum_{n=1}^{10}(\hat{y}^n-(b+w·x_{cp}^n))^2$
梯度下降算法（Gradient Descent）

假设损失函数 $L (w)$ 只有一个参数 $w$ ， $w^*=arg\min_{w}L(w)$

随机选择一个初始值 $w^0$ 。
计算 $\frac{\mathrm{d}L}{\mathrm{d}w}|_{w=w^0}$ ，即在 $w^0$ 处的切线斜率。如果斜率为负，则增大 $w$ （右移）；如果斜率为正，则减小 $w$ （左移）。得到更新后的 $w^1=w^0-\eta\frac{\mathrm{d}L}{\mathrm{d}w}|_{w=w^0}$ ，其中改变量（step size）受当前斜率和学习率（learning rate） $\eta$ 影响， $\eta$ 越大训练速度越快。
计算 $\frac{\mathrm{d}L}{\mathrm{d}w}|_{w=w^1}$ ，得到更新后的 $w^2=w^1-\eta\frac{\mathrm{d}L}{\mathrm{d}w}|_{w=w^1}$ 。
重复以上步骤，多次迭代直到某次切线斜率为0，可能达到局部最优而不是全局最优。但是在线性回归中不存在局部最优。

损失函数通常有两个参数 $w^*,b^*=arg\min_{w,b}L(w,b)$

随机选择一个初始值 $w^0,b^0$ 。
计算 $\frac{\partial L}{\partial w}|_{w=w^0,b=b^0}$ , $\frac{\partial L}{\partial b}|_{w=w^0,b=b^0}$ ，得到新的 $w^1$ ← $w^0-\eta\frac{\partial L}{\partial w}|_{w=w^0,b=b^0}$ ， $b^1$ ← $b^0-\eta\frac{\partial L}{\partial b}|_{w=w^0,b=b^0}$ 。
计算 $\frac{\partial L}{\partial w}|_{w=w^1,b=b^1}$ , $\frac{\partial L}{\partial b}|_{w=w^1,b=b^1}$ ，得到新的 $w^2$ ← $w^1-\eta\frac{\partial L}{\partial w}|_{w=w^1,b=b^1}$ ， $b^2$ ← $b^1-\eta\frac{\partial L}{\partial b}|_{w=w^1,b=b^1}$
重复进行以上步骤。

梯度下降法中的梯度（Gradient）指的是 $\nabla L=\begin{bmatrix}\frac{\partial L}{\partial w}\\ \frac{\partial L}{\partial b}\end{bmatrix}$

问题
初始点不同得到的结果也不同，有可能得到局部最优而非全局最优。但是线性回归的损失函数是不存在局部最优的，局部最优即全局最优。
偏微分的计算
$L(w,b)=\sum_{n=1}^{10}(\hat{y}^n-(b+w·x_{cp}^n))^2$ $\frac{\partial L}{\partial w}=\sum_{n=1}^{10}2(\hat{y}^n-(b+w·x_{cp}^n))(-x_{cp}^n)$ $\frac{\partial L}{\partial b}=\sum_{n=1}^{10}2(\hat{y}^n-(b+w·x_{cp}^n))$

Result 结果

一次方程 $y=b+w·x_{cp}$

在训练样本上
在这里插入图片描述
$y=-188.4+2.7·x_{cp}$ $AverageError=\frac{1}{10}\sum_{n=1}^{10}e^n=31.9$ 在新样本上

$AverageError=\frac{1}{10}\sum_{n=1}^{10}e^n=35.0$

二次方程 $y=b+w_1·x_{cp}+w_2·(x_{cp})^2$

在训练样本上
在这里插入图片描述
$y=-10.3+1.0·x_{cp}+2.7×10^{-3}·(x_{cp})^2$ $A v e r a g e E r r o r = 15.4$ 在新样本上

$A v e r a g e E r r o r = 18.4$

多次方程

三次方程 $y=b+w_1·x_{cp}+w_2·(x_{cp})^2+w_3·(x_{cp})^3$ Average Error分别为15.3和18.1。
四次方程 $y=b+w_1·x_{cp}+w_2·(x_{cp})^2+w_3·(x_{cp})^3+w_4·(x_{cp})^4$ Average Error分别为14.9和28.8，在测试集上的效果反而比三次方程更差。
五次方程
$y=b+w_1·x_{cp}+w_2·(x_{cp})^2+w_3·(x_{cp})^3+w_4·(x_{cp})^4+w_5·(x_{cp})^5$ Average Error分别为12.8和232.1，在测试集上的效果更差。

高次方程可以表达的方程包含了低次方程可以表达的全部方程，因此在训练集上，方程次数越高、越复杂，拟合的效果越好。但是在测试集上，方程越复杂，预测效果却不一定更好，本例中三次方程的预测效果最好。模型不是越复杂越好，而是要选择最合适的模型，在本例中选三次方程最合适。
在训练集上效果好而在测试集上效果不好，称为过拟合现象（Over fitting）。
在这里插入图片描述

实例延申：增大样本数量

当样本数量 $n = 60$ 时，规律发生变化，发现进化后的CP值受物种的影响。
在这里插入图片描述

Back to step 1: Redesign the Model 重新设计方程

用 $x_s$ 代表宝可梦的物种，根据不同的宝可梦类型给出不同的模型。
If $x_s$ = Pidgey → $y=b_1+w_1·x_{cp}$
If $x_s$ = Weedle → $y=b_2+w_2·x_{cp}$
If $x_s$ = Caterpie → $y=b_3+w_3·x_{cp}$
If $x_s$ = Eevee → $y=b_4+w_4·x_{cp}$

这还是一个线性方程，相当于
$y=b_1·\delta(x_s=Pidgey)+w_1·\delta(x_s=Pidgey)x_{cp} +b_2·\delta(x_s=Weedle)+w_2·\delta(x_s=Weedle)x_{cp}\\ +b_3·\delta(x_s=Caterpie)+w_3·\delta(x_s=Caterpie)x_{cp} +b_4·\delta(x_s=Eevee)+w_4·\delta(x_s=Eevee)x_{cp}$ 其中
$\delta(x_s=Pidgey)=\begin{cases}1\ \ x_s=Pidgey\\0\ \ otherwise\end{cases}$
分类模型训练结果
在这里插入图片描述
$A v e r a g e E r r o r = 3.8$

$A v e r a g e E r r o r = 14.3$ 优于上文中三次方程的模型。
但是还没有完全拟合，可能还有其它的因素影响宝可梦进化后的CP值，如weight、height、HP等等。
将其纳入考虑：
If $x_s$ = Pidgey → $y'=b_1+w_1·x_{cp}+w_5·(x_{cp})^2$
If $x_s$ = Weedle → $y'=b_2+w_2·x_{cp}+w_6·(x_{cp})^2$
……
$y=y'++w_9·x_{hp}+w_{10}·(x_{hp})^2+w_{11}·x_h+w_{12}·(x_h)^2+w_{13}·x_w+w_{14}·(x_w)^2$ Average Error分别为1.9和102.3。该怎么选择去掉一些无关的特征，简化方程？正则化

Back to step 2: Regularization 正则化

原方程为 $y=b+\sum_{n}w_ix_i$ 原损失函数为 $=\sum_{n}(\hat{y}^n-(b+w·x_{cp}^n))^2$ 增加 $\lambda \sum (w_i)^2$ ，使新损失函数变为 $=\sum_{n}(\hat{y}^n-(b+w·x_{cp}^n))^2+\lambda \sum (w_i)^2$ 其中 $\lambda$ 是一个常数，手动设置。
参数值接近0的时候，方程是比较平滑的，输入对输出的影响相对不敏感。当输入变化 $\Delta x_i$ 时，输出变化 $w_i\Delta x_i$ ， $w_i$ 越接近于0，则输出变化越少。
平滑的方程受到噪声干扰较小，因此我们喜欢比较平滑的方程，即 $\sum (w_i)^2$ 较小。
$\lambda$ 越大，得到的方程越平滑，方程在训练集上的Average Error越大，在测试集上的Average Error可能反而比较小。因为当 $\lambda$ 越大时，我们越多考虑 $w$ 本来的值，减少考虑Error，所以Training Error会越大。
但是如果方程太平滑了，会得到糟糕的结果。水平线是最平滑的，但它什么也做不成。
所以问题就是：我们希望得到的方程有多平滑。这可以通过调节 $\lambda$ 决定方程的平滑程度，本例中 $\lambda$ 选择100左右比较合适。
在做Regulation的时候，不需要考虑bias的值，b的值与方程的平滑程度无关。
在这里插入图片描述