#the hypothesis for linear regression with multiple features or with multiple variables(多元或多向量线性回归假设)
#Gradient descent for multiple variables(多元梯度下降法)
#多元梯度下降法演练
1、Feature Scaling(特征缩放)
通过特征缩放,可以是梯度下降更快收敛。
一般来说,将特征的取值约束到-1~+1范围内,但也不用太精准。
- Mean normalization(均值归一化)
2、Learning rate(学习率)
如何确保梯度下降正常工作?
*iteration(迭代)
因为选择合适的阈值相当困难,所以倾向于观察曲线而不是依靠automatic convergence test(自动收敛测试)。
如果工作错误,一般是因为学习率α太大。
最后取合适范围内较大的α。
#Features(特征)
有时候通过定义新的特征,可能会得到一个更好的模型。
#Polynomial regression(多项式回归)
即如何将一个多项式拟合到数据上。
*如果像这样选择特征,那么特征缩放就变得更加重要了。
#Normal equation(正规方程)
只需要一步就能解出优化值,是区别于迭代方法的直接解法。
例子:
这个式子会给出最优的θ值:
*如果用正则方程,则不需要特征缩放。
#Gradiant Descent(梯度下降)VS(正则方程)Normal Equation
#正则方程在矩阵不可逆情况下的解决方法
如果用Octave里的pinv,即使X'X不可逆,也可以求出正确解。
PS.内容为学习吴恩达老师机器学习的笔记【https://study.163.com/course/introduction/1004570029.htm】