李宏毅机器学习笔记第3周_案例讲解回归问题

MoxiMoses

已于 2022-10-08 20:08:58 修改

阅读量499

点赞数

文章标签：机器学习深度学习

于 2022-04-30 22:54:22 首次发布

本文链接：https://blog.csdn.net/peaunt1/article/details/124520344

版权

本文探讨了如何通过线性回归模型预测宝可梦进化后的cp值，通过Goodness of Function评估模型优劣，利用梯度下降法寻找最佳参数，并揭示了过度拟合问题。关键步骤包括模型建立、损失函数计算和参数优化。最终结论强调了合适模型选择和特征的重要性。

摘要由CSDN通过智能技术生成

一、Regression

Regression可以应用在很多方面，例如Stock Market Forecast（股市预测）、Self-driving Car（自动驾驶汽车）和Recommendation（推荐）。这里主要是通过讲解案例预测pekemons（宝可梦）进化后的战斗力，在这里我们要寻找的一个函数，input为宝可梦，outputt为宝可梦进化后的cp值。

二、Step1 Model

1）我们需要建立一个Model，例如y=b+wx。
2） w和b可以是很多参数，例如：
f1：y=10.0+9.0x；
f2：y=9.8+9.2x；
f3：y=-0.8-1.2x；
3）在这么多function中不是所有都是正确的，因此我们需要找到符合要求的function。
4）这些model都是Linear model：y=b+Σwi*xi，其中xi是输入一组x的feature，wi为weight，b为bias。

三、Step2 Goodness of Function

1）我们收集10只宝可梦，得到他们的进化后的情况。
在这里插入图片描述
2）通过上图所示，我们需要定义一个另外的function，来衡量一个参数（w，b）的好坏，它叫做Loss function，也就是函数的函数。
Input：a function，output：how bad it is。
3）我们拥有了Loss function以后，我们可以对参数w，b作图。图上的每一个点就是代表一组w和b，点越偏向于红色，function越不好，而越偏向于蓝色，function越好。最好的function落在smallest上，它是可以让Loss最低的function。
在这里插入图片描述

四、Step3 Best Function

1）我们现在需要在function中寻找到最好的function，也就是寻找Loss值最小，因此我们需要穷举所有的w和b来寻找。
在这里插入图片描述
2）我们可以使用Gradient Descent（梯度下降）来进行计算。首先随机选取初始点w0，计算在w0这个位置Loss的微分，也即是斜率。当斜率为正时，则需要减小w，当斜率为负时，则需要增加w。
3）每一次向右移动多少的w，主要取决于两个因素。第一个是当前点的微分值，如果微分值越大，曲线就越陡峭，那么移动的距离就越大，反之就越小。另一个是取决于常数项η，我们把它叫做“learning rate”，它是事先就定好的数值。
4）我们把w0更新为w1，我重复这个过程，经过反复的更新我们就会得到一个最低点，也就是Local optimal，但它不是最佳解。
在这里插入图片描述
5）当我们讨论两个参数时，也即是w和b。首先选取初始值w0和b0，跟上述方式一样反复更新w和b，最后就会找到Loss比较小的w和b。

6） Gradient Descent有一个让人担心的地方，因为得到时是随机的。但是在linear regression中，Loss function是convex，convex的意思是没有Local optimal的位置，所以Gradient Descent找出来的最佳参数和找出来的参数是一致的。
在这里插入图片描述
7）计算L对w的偏导数和L对b的偏导数。

五、How’s the result?

1）通过上述过程，我们可以得到最好的w和b。但是我们通过下面的图像可以发现不是所有的点都是符合函数的，存在误差的情况，会造成预测不准的情况。因此我们可以考虑找到更复杂的Model，进一步优化结果。
在这里插入图片描述
2）我们考虑选择二次方程、三次方程、四次方程，甚至是多次方程。结果显示通过增加函数的次数，Training data越来越小，但是Testing data先是减小，然后增大，在五次方程中，Testing data增长的异常的大，这种现象称为Overfitting。因此得出结论，function不是次数越多越好，越复杂越好，而是要选择合适的model。
在这里插入图片描述
3）收集更多的数据，我们会发现存在隐藏的因素（宝可梦的物种）影响结果。因此我们第一步需要重新去设计model，第二步需要regularization。最后的结论是宝可梦进化前的cp值、进化后的cp值和它的物种是有着重要关系的，可能也有其它的因素存在着影响。