week1-3.Parameter Learning
一、Gradient Descent
二、Gradient Descent Intuition
梯度下降(gradient descent)
算法过程:
![](https://i-blog.csdnimg.cn/blog_migrate/2de109856fbba171b3f4c281ecef8445.png)
梯度下降算法特点:从不同起始点开始计算可能会达到不同的局部最优点(different local optimum)
![](https://i-blog.csdnimg.cn/blog_migrate/59480c54e743f463fc1af9e42ca2f212.png)
alpha-学习率(learning rate),代表梯度下降时的步长。
![](https://i-blog.csdnimg.cn/blog_migrate/3e7d295ab31d17789f26183566811061.png)
theta0和theta1必须同时更新(simultaneous update),知道函数收敛(repeat until convergence)。
步长(alpha)长短对效率/结果的影响:步长太短,效率第;步长太长,容易越过最优点。
![](https://i-blog.csdnimg.cn/blog_migrate/9767abb6eb074fca2bdf892c8ff126d9.png)
越接近最优点,偏导越小,步长越小,故不容易越过最优点(故实际上可以不逐渐减小步长)。
当到达局部最低点时,偏导值为0,所以J会停留在局部最低点。
三、Gradient Descent for Linear Regression
将梯度下降运用到线性回归中:
![](https://i-blog.csdnimg.cn/blog_migrate/42daae69784d70b36e3aba24baa40e08.png)
将linear regression model中的J函数带入gradient descent algorithm中的参数更新公式;
再将假设的拟合函数h(x)的表达式带入:
![](https://i-blog.csdnimg.cn/blog_migrate/7090673458d299c459012570115a82fc.png)
即:
![](https://i-blog.csdnimg.cn/blog_migrate/2f0722d43c12cf86543d5c44eeaa44d8.png)
带入过程中theta1偏导的具体求法:
![](https://i-blog.csdnimg.cn/blog_migrate/26b022450c9e125c5881b5010aae897d.png)