两种方法判断梯度下降是否收敛:
学习曲线(learning curve):横轴是迭代的次数,纵轴是成本函数
正常情况下,成本函数应该随迭代次数的增加而减小,否则意味着学习率选择的不合适(太大),或代码错误(如α前面的负号写成了正号)。
自动收敛测试(automatic convergence test)
设一个很小的 ε ,如0.001.若J在一次迭代中增长不超过ε,即J<=ε,称收敛。但通常ε不好找。
如何设置学习率
先设一个小的,0.001,再设三倍0.003,再设0.01,以此类推。
特征工程(feature engineering):
根据直觉设计新的特征,通常是通过变换或组合原始的特征。
多项式回归(polynomial regression)
在这种情况下特征缩放更加重要。
平方根这种不那么陡峭。