week1-3.Parameter Learning
一、Gradient Descent
二、Gradient Descent Intuition
梯度下降(gradient descent)
算法过程:
梯度下降算法特点:从不同起始点开始计算可能会达到不同的局部最优点(different local optimum)
alpha-学习率(learning rate),代表梯度下降时的步长。
theta0和theta1必须同时更新(simultaneous update),知道函数收敛(repeat until convergence)。
步长(alpha)长短对效率/结果的影响:步长太短,效率第;步长太长,容易越过最优点。
越接近最优点,偏导越小,步长越小,故不容易越过最优点(故实际上可以不逐渐减小步长)。
当到达局部最低点时,偏导值为0,所以J会停留在局部最低点。
三、Gradient Descent for Linear Regression
将梯度下降运用到线性回归中:
将linear regression model中的J函数带入gradient descent algorithm中的参数更新公式;
再将假设的拟合函数h(x)的表达式带入:
即:
带入过程中theta1偏导的具体求法: