回归问题的条件/前提:
1) 收集的数据。
2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。
(1)线性回归的定义
(2)单变量线性回归
(3)cost function:评价线性回归是否拟合训练集的方法
(4)梯度下降:解决线性回归的方法之一
(5)feature scaling:加快梯度下降执行速度的方法
(6)多变量线性回归
3.1 线性回归
3.1.1 单变量线性回归的模型
线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(cost function最小)即可:
注意:
(1)因为是线性回归,所以学习到的函数为线性函数,即直线函数;
(2)因为是单变量,因此只有一个x;
我们能够给出单变量线性回归的模型:
怎么样能够看出线性函数拟合的好不好呢?
使用最小二乘法计算Cost Function(代价函数),代价函数越小,说明线性回归地越好(和训练集拟合地越好),当然最小就是0,即完全拟合;
“最小二乘法”的思想求解,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小时的
值即为最优模型的参数值。
接下来,就是求解这个函数的方法,梯度下降法。
梯度下降:能够找出cost function函数的最小值
2.梯度下降方法求解过程(单变量的线性回归,即只有一个特征变量):
梯度下降:能够找出cost function函数的最小值
方法:
(1)先确定向下一步的步伐大小,我们称为Learning rate;
(2)任意给定一个初始值:
(3)确定一个向下的方向,并向下走预先规定的步伐,并更新;
(4)当下降的高度小于某个定义的值,则停止下降;
下降的方向:由于随着越接近最小值,函数切线的斜率逐渐变小。这就是下降的方向。
特点:
(1)初始点不同,获得的最小值也不同,因此梯度下降求得的只是局部最小值;
(2)越接近最小值时,下降速度越慢;
问题:如果
初始值就在local minimum的位置,则会如何变化?
答:因为已经在local minimum位置,所以