(5) Regression

一套煎饼

已于 2022-04-13 16:31:54 修改

阅读量460

点赞数 3

分类专栏：机器学习文章标签：机器学习

于 2022-04-13 16:26:13 首次发布

本文链接：https://blog.csdn.net/upupyon996deqing/article/details/124101868

版权

机器学习专栏收录该内容

14 篇文章 5 订阅

订阅专栏

股票预测系统：这一个函数输入是过去十年的股票资料，输出是明天道琼工业指数的点数

无人车：输入是无人车的红外线感测的传感器，影响的镜头所看到的是马路上的东西等，输出是方向盘的角度。

推荐系统：输入就是使用者A或者是商品B，输出的就是购买的可能性。

例子的应用：预测宝可梦的CP值（宝可梦的战斗力）

今天所讲的例子就是找一个函数，输入是宝可梦相关的function，输出的是进化后的CP值

$x_{cp}$ :还进化之前的CP值

$x_{s}$ :是属于什么物种

$x_{hp}$ ：生命值是多少

$x_{w}$ 和 $x_{h}$ ：重量和身高

输出y:进化后的CP 值

现在怎么做呢？

先找一个model（function set），第二步就是找function set当中的function，拿出其中的一个function来判断他的好坏，最后一步是找最好的一个function出来。

第一步：

找一个function set，这个function set就是model，现在我们写一个简单的函数当作是这个粒子的函数。

（w和b是未知的参数，可以是任何的数值）

如果w和b的数值是任意设定的，那么就可以得到很多的函数，上图中的函数就是所有函数的集合。

但是在上面的这些函数当中有一些可能不是符合宝可梦这个例子的函数， $f_{3}$ 可能就不是正确的函数，因为CP值是正的。所以一会要经过training data来检验出在这个函数集合当中哪一个是正确的函数。

上面的函数集合称作是Linear model。

第二步：

现在要收集training data，才能找function，所以我们收集的是function的输入和输出（是一个数值）

现在我们收集了十只宝可梦，每一只的编号是从1到10，他们的输出CP值是从 $\widehat{y}^{1}$ 到 $\widehat{y}^{10}$ ，这些是真正的数值。

我们现在把这十只的信息在图上画出来的话，图中的每一个蓝色的点代表一只宝可梦，x轴代表的是一直宝可梦的CP值，y轴式进化后的CP值。第n个宝可梦的表示如图所示

现在有了这些training data之后就可以定义function的好坏，怎么做呢？

我们要定义另一个function：Loss function L ,他的输入就是一个function，输出是判断输入的这个函数的好坏。（也就是衡量一组参数w和b的好坏）

怎么定义这个L函数呢？

小括号里面的是预测的CP值，真正的CP值是前面的 $\widehat{y}^{n}$ 。

（估测的误差）

所以上面的步骤就是用给估测的误差来估测Loss function。

loss function函数画出来：

颜色越红，代表这Loss的function越不好，颜色月偏蓝色，代表着function越好。

我们已经定好了Loss function ,可以衡量每一个model的好坏，接下来做的事情就是在function set当中挑选一个最好的function。

Gradient Descent（梯度下降法）的作用

只要L这个函数使可微分的，不管是什么函数Gradient Descent都可以拿来处理这个函数

（1）先考虑一个函数L（w）,这个L函数里面只有一个函数，并且L函数是任意一个函数

现在的问题是找一个w使的这个L函数最小。

最有效率的做法是：

第一步：随机选出一个初始的点w0。

第二步：计算w在w0处对L的微分。（图中的切线斜率）如果斜率是负数的话，可以知道L的曲线是左边高右边低的样子，我们要找的是L比较低的function，所以我们要增加w的值（把w往右移动）反之，计算的斜率是正数的话，曲线则是右边高左边低的状态，我们就应该减少w的值（把w往左边移动）。

第三步：怎么增加，增加多少呢？（取决于两件事）一是现在的微分值（dL/dw）是多少，微分值越大增加的就越多，反之，就越小。二是前面的常数项leaning rate（事先定好的数值）这个常数项越大，更新的数值就越大，反之就越小。

（黄色阴影部分的负号解释：）如果微分算出来是负数的话，要增加w的值，算出来的微分是正数的话，就增加w的值。所以微分的值跟我们增加的方向是反向的，所以前面加上负号。

把w0更新以后变成w1。接下来就是重复上面的步骤，经过多次的参数更新以后w的值就更新到了wT（Local optimal）的地方,这个地方的微分是0，参数就没办法往下更新了。但是在下面的这个图中。wT并不是L的最小解，后面的这个点才是使L最小的点，注意的是，在regression当中是没有Local minimun的。