1.梯度下降:
最小化代价函数;
这个表达式的意思是通过获取w的当前值并对它进行少量调整来更新参数w;
α:学习率,通常是0-1之间的一个小正数,基本上控制你下坡时的步幅。
代价函数的导数项,决定下坡的方向;
重复这两个式子,直到收敛(达到了一个局部最小值,在这个最小值下,参数w和b不再随着你采取的每一个额外步骤而改变很多)。
w和b要求同时更新的情况:
w和b没有同时更新(非正确方法):
学习率α:
过小:下降速度缓慢,
过大:可能会发散。
在局部最小点时,偏导数=0,此时w也不会再变化;
代价函数化简过程。
若成本函数是凸函数,只有一个全球最小点。
多类特征:
多元线性回归:
向量化的技巧(多个特征值得和可以看成行向量)。
代码具体实现:
F=np.dot(w,x)+b;(NumPy dot 函数)
算法矢量化是非常重要的一个想法;
N个特征的梯度下降:
方程法(求解w和b)(这个没有过多解释):
缺点:不像梯度下降那样有强大的推广性,并不能推广到其他学习算法;方程法比较慢。