第二天系统学习。
1.设损失函数为J(θ),希望将这个函数最小化,通过梯度下降方法找到最优解。这里应该有些假设,这个函数是凸函数。
以两个参数为例,随机一个点开始,开始下山,对于这个点到最底部,最好的方式就是切线方向,这个方向下降最快,就像图中红色×,每次按照蓝色切线箭头以一定的长度往下走,当走到最低点是停止。对每一个θ求偏导数,合方向为最终方向。
θj = θj - a(J(θ)对每个θj的偏导)
这里的a是learning rate 学习速率,代表了下降的步长,就是每一次下降多么远的距离,这个a的选择需要调整。
2.将梯度下降和线性回归算法结合
对于线性回归算法,在上一个博客中推导了标准方程法,但是这种方法有缺陷,下面用梯度下降推导一下。这里用两个参数为例,对于损失函数J来自于上个博客中的最小二乘法方程,这里多了一个m,对m的解释:如果没有m整个损失函数J将是样本偏差的和,这个和除以m就是平均偏差,这样就和样本数量没有太大关系了。
设定好a之后,不断更新θ的值,直到θ值没有变化,这里可以设置一个很小的数。此时可以认为已经到了最低点,此时的θ为最优解。
3.推广到多元线性回归。
首先设置预测函数h,将X0置为1,把X和θ转为向量,h就可以用向量表示。
后面基本一样,只是多个式子合并为一个。
4.a 学习率的选择
太大太小都不好,太大的话容易越过最低点;太小的话时间太长,每次只能走很小一步所以整体时间会很慢,这个一般来说可以一个一个的试,0.01,0.001,0.0001,0.05等等,如果发现J原来越大说明跳过了最低点,a太大了应该调低,如果J变化很小说明a太小了,应该调大一点。
5.梯度下降方式