前言
![3b8345f68ea2ffecd8e9a901ec485477.png](https://i-blog.csdnimg.cn/blog_migrate/5a3a81b03b8a65e2f17ee8d46f0dacbd.png)
这是我们熟悉的二元一次方程,其中 参数可以理解为直线的斜率(Slope),b 参数为直线的偏置(Bias),显然 y 的值随着 x 变化而线性变化,我们只需要知道直线上两个点的坐标即可求解出 w 和 b 的值,这个叫做解析解。
当想通过一个直线来拟合一群点的时候,这两个点的选择就得看运气了,选不好就像上图蓝线那样,并不能较好的拟合数据集。
推广到多维空间就是
我们希望找到一组 w 和 b 使得f(x)的轨迹尽量拟合所有的数据点,这个解叫做数值解。那怎样判断拟合的效果呢,就是根据所有点的预测值与实际值的差的平方和的平均值,即均方差MSE(Mean Squared Error)来衡量的。
所以目标就是求得一组 w 和 b 使得总误差最小
实现思路
我们知道求极值可以通过求导数的方式实现,导数为0的点一定是极值点,同时我们知道当导数大于0时,函数是递增的,导数小于0时,函数是递减的,可以利用这一特性来更新 w 和 b 的值。
这就巧妙的实现了对 w 和 b 的更新,其中系数为学习率。所以问题就转化为对均方误差进行求导,应用链式求导法则可知