李宏毅机器学习（1）

最新推荐文章于 2024-09-15 18:44:18 发布

Baigker

最新推荐文章于 2024-09-15 18:44:18 发布

阅读量196

点赞数

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/Baigker/article/details/117716940

版权

李宏毅机器学习课程笔记专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Regression

1.什么是Regression

Regression，有道词典翻译为拟合，就是构建一个函数，通过输入特征值，得到预测的结果。
举例说明：
①股市预测
②自动驾驶
③商品推荐
由此可见，Regression可以做很多东西，其主要功能还是预测。

Regression 的步骤

一个有趣的例子就是预测宝可梦进化后的CP（战斗力）值。问题可以描述为：

输入：宝可梦进化前的CP值，种类，属性，血量，重量，高度。
输出：宝可梦进化后的CP值。

Step 1 确定模型

模型的种类有很多，但最经典的还是多项式模型，其中最简单的就是线性模型。
这一题中用的就是多项式函数模型，不妨先认为进化前的cp值（x值）和进化后的cp值（y值）满足线性关系。

y=w·x+b

显然我们要求的就是w和b值。

Step 2 Goodness of Function

1、获取training data

为了让我们的函数走向正确的道路，我们还需要采集数据，形成training data set，引导函数参数的变化。

2、设计Loss Function

为了评价我们设计的function的好坏（goodness of function），还需要设计一个Loss Function，它将构建好的函数作为参数，输出一个数值。
Loss Function的值越小，则代表这个函数越好。
本题中，使用了最小二乘法的Loss function。
在这里插入图片描述

Step 3 找到最好的函数Best Function

1、什么是最好的函数

很显然，最好的函数就是预测最准的函数，即：令L(f)最小的函数。记为arg minL(f)。
在这里插入图片描述
尽管用线性代数就能解决这个问题，但为了后续更复杂问题的解决，要使用下面的方法。

2、Gradient Descent 梯度下降法

在本题中，函数比较简单，是普通多项式函数，且为liner function，直接给出Gradient Descent的步骤：

设 $f(x_1,x_2...x_n)$ 对 $x_1,x_2..x_n$ 都可求微分
设计一个值 $η > 0$ ，称这个 $\eta$ 为learning rate
随机的选择一个点 $P_0(x_1,x_2...x_n)$
每次通过迭代从 $P_m$ 得到 $P_{m+1}$ ： $x_{1}^{'}=x_1-η\frac{αL}{αx_1}|_{P_m}$ , $x_{2}^{'}=x_2-η\frac{αL}{αx_2}|_{P_m}$ … $x_{n}^{'}=x_n-η\frac{αL}{αx_n}|_{P_m}$
经过多次迭代，得到global optimal（全局最优解）‘’

原理：因为这里的Loss Function L 是凸的，liner regression没有local optimal。
在这里插入图片描述
例子：

$L(f)=L(w,b)=\sum_{n=1}^{10} {(\widehat{y}_n-(b+w·x_{n,cp}))^2}$
$\frac{αL}{αw} = \sum_{n=1}^{10}2·(\widehat{y}-(b+w·x_{n,cp}))(-x_{n,cp})$
$\frac{αL}{αb} = \sum_{n=1}^{10}2·(\widehat{y}-(b+w·x_{n,cp}))(-1)$
用10组数据作为Training Data，再用10组数据作为Testing Data

3.过拟合

上例中，函数 $f ()$ 为线性函数，称为一次型。则二次型为：

$y=b+w_1·x_{cp}+w_2·x_{cp}^2$

效果更好了：
在这里插入图片描述
同样可以有三次型、四次型、n次型。
但次数太高了Average Error反而会更高，离正确答案更远了。

这就是过拟合Overfitting，这是因为：Training Data会有“噪音”，并不能完全反映真实情况。而模型越复杂，其能涵盖的范围就越广（如上图），而正确答案就是一个点。因此模型太复杂，反而容易偏离正确答案。
但有时怎么都拟合不好时候，要考虑是否有其他因素。
接着上例：

$x_s=species$ $o f$ $x$
重构模型为：
$y=b_1·δ(x_s=A)+w_1·δ(x_s=A)+b_2·δ(x_s=B)+w_2·δ(x_s=B)$
PS: $δ(x_s=A)=1(if x_s=A)=0(otherwise)$

因为有“噪声”的存在，有时依旧不能考虑太多因素。

4.正则化

$y=b+\sum_{i}{w_i·x_i}$
$L=\sum_{n}{(\widehat{y}_n-(b+\sum_{i}{w_i·x_i}))}^2+λ\sum_{i}{(w_i)^2}$
$λ\sum_{i}{(w_i)^2}$ 是惩罚项，w越小越好，因为函数应该要平滑（smooth）