李宏毅2017机器学习课程视频笔记2：Regression

自律版光追

已于 2023-06-10 15:36:35 修改

阅读量134

点赞数

分类专栏： # 李宏毅机器学习笔记文章标签：机器学习笔记人工智能

于 2023-06-10 15:30:06 首次发布

本文链接：https://blog.csdn.net/m0_61819793/article/details/131138760

版权

李宏毅机器学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章介绍了机器学习中的Regression任务，包括线性模型的选择、均方误差损失函数的定义以及梯度下降法的应用。当模型性能不足时，可以通过增加参数或特征来修改模型，如引入二次项。此外，文章讨论了正则化对权重参数的影响，以减少过拟合并提高泛化能力。

摘要由CSDN通过智能技术生成

文章目录

1. 机器学习基本步骤
2. Gradient Descent
3. 修改Model
- 3.1 通过增加参数的方式修改Model
- 3.2 增加feature以修改Model
4. 修改loss function
- 4.1 对权重参数进行regularization

从需要解决的问题来说，Regression的目的就是让模型根据输入得到一个scalar的输出
李宏毅教授使用的是预测宝可梦进化后的cp值作为讲解Regression的例子
宝可梦进化预测的例子

1. 机器学习基本步骤

根据上一篇文章中介绍的ML三部曲choose Model->define loss function->pick the best funciton来完成Regression任务
Step1 choose Model
linear model
$y = b + w*x_{cp}$ 使用进化前的cp值预测进化后的cp值
$w_i$ ——权重参数(weight)
$b_i$ ——偏置参数(bias)
$x_cp$ ——特征量(feature)，
$x^{i}_j$ ——第i个样本的第j个特征，即上标表示一个object，下标表示一个object对应的那个feature component

Step2 define loss function
均方误差
$\sum^{10}_{n=1}(\hat{y}^{n}-(b+w*x^n_{cp}))^2$
$(\hat{y}^n-f(x^n_{cp}))^2$ ——预测误差(estimation error)

Step3 pick the best function
$w*, b* = arg min_{w, b}L(w, b)$
so how to pick the best $w^*$ and $b^*$ ？——使用梯度下降方法(gradient descent)

2. Gradient Descent

使用gradient descent的步骤：

随机选取一个初始参数 $w^0$ 和 $b^0$
计算梯度 $\frac{\partial L}{\partial w}|_{w=w^0,b=b^0}$ 和 $\frac{\partial L}{\partial b}|_{w=w^0, b=b^0}$
更新参数 $w^1 = w^0-\eta\frac{\partial L}{\partial w}|_{w=w^0, b= b^0}$ 和 $b^1 = b^0-\eta\frac{\partial L}{\partial b}|_{w = w^0, b=b^0}$
继续迭代…
$\eta$ ——学习率(learning rate)，表示参数更新快慢程度

$\eta$ 对梯度下降的影响： $\eta$ 越大，梯度下降速度是越快的。 $\eta$ 太小的时候，找到相同的best function所需迭代次数将更多； $\eta$ 太大的时候，可能会错过the best function，找不到最优解。
（ps：在迭代过程中的理想情况是，loss function的值越来越小，最后我们pick一个合适的参数值。但事实上，当学习率比较大的时候，loss function在过程中是会出现震荡的。这也就要求我们要pick一个合适的learning rate，顺便说一句，像learning rate这种需要我们自己pick的参数称为超参数，这与w，b等参数是不同的。在DL中选择合适的超参数的过程也称为“炼丹”）

随机梯度下降存在的问题
这页ppt中指出了我们使用的梯度下降法存在的问题：

在plateau也即梯度值比较小的位置参数更新慢，
在saddle point也即鞍点即梯度值为0点参数更新会停滞
可能陷入局部最小值点的困境(local minima)

ps：这里linear regression使用均方误差作为loss function是convex function，其局部最小值就是全局最小值，不会出现local minima的困境

3. 修改Model

对得到的 $w^*$ 和 $b^*$ 的泛化能力进行评估

泛化能力：将从training data上pick的best function用于testing data上进行预测的性能
评估标准：average error on testing data. 这里的error指的仍然是estimation error ( $y-(w^*x+b^*))^2$ )，再求和取平均即可

当我们对当前得到的函数的generalization ability不满意的时候，我们就需要改变ML第一步中确定的Model再pick出另一个best function

3.1 通过增加参数的方式修改Model

for example: 在model里引入一次项，二次项得到 $y = b+w_1x_{cp}+w_2(x_{cp})^2$
更多Model如下图所示：
增加次数得到更好拟合的机制
原因：增加参数使得prediction function能够表示的input与output之间的作用机制的范围更大，更可能在training data上达到better fit的效果，从而期望在testing data上也能better fit

但并不是在training data上有最小的error，the function就会有最好的泛化能力

过拟合(overfitting)：当model 太复杂以至于我们能在training data上得到一个非常好的结果，但在testing data上的预测误差却很大

overfitting的结果展示：
过拟合现象的出现

3.2 增加feature以修改Model

将宝可梦品种和它进化前的cp值都作为输入feature得到的Model：
引入宝可梦物种的影响
这个模型进行预测得到的结果：
引入宝可梦物种影响改变function之后的预测结果
当我们认为prediction result on testing data依然不够好的时候，我们还可以怎么办？

4. 修改loss function

当更改Model得到的预测函数的泛化能力仍不能达到要求的时候，我们需要考虑改变ML第二步中的loss function
李宏毅教授在课程中使用的是regularization(正则化)

4.1 对权重参数进行regularization

怎么做？
设计loss function $L=\sum(\hat y^n-(b+\sum w_ix_i))^2 + \lambda \sum(w_i)^2$
正则项的影响？
the functions with smaller $w_i$ are better. 更可能得到一个 $w_i$ 小的预测函数
出现error on training data增大，error on testing data减小
$w_i$ 更小的作用？
预测函数变得更平滑，对噪声更不敏感。于是在处理一些带有噪声的input的时候，它会有更好的表现。

关于"smoother"，举个例子：
prediction function为 $\sum w_ix_i$ ，当input变化， $y+\sum w_i \Delta x_i$ $\sum w_i(x_i + \Delta x_i)$ 会得到对应的output变化。
如果 $w_i$ 更小，则input的变化对应的outputp变化也更小。
这也能说明，不需要在bias上做regularization，因为 $\Delta y$ 中没有受到bias的影响