Andrew Ng 机器学习 chapter 2 单变量线性回归
linear regression with one variable
cost function
当Thera有多个元素时,可以把整个代价函数看成类似于contour plots(像碗状结构一样),相当于求函数最低点。
gradient descent
包括两个步骤:
- 设置初始值
- 更改初始值,寻找代价函数的最小值
需要注意的一点是:公式中的多个Thera_j 要同时做改变。同时,由于初始值的不同,可能会有局部最优解的出现;而对于一个convex function,则只会存在全局最优解。
learning rate
学习率的取值,太小,会使得下降速度过慢;太大,会导致难以收敛。
batch gradient descent
这里的batch,指的是每一步梯度下降,遍历了整个数据集的数据。