梯度下降公式:
优化起因:对于每个特征量Xi,当特征量之间范围差距过大时(如0<X1<1000,-1<X2<1)会形成一个椭圆,椭圆的梯度下降效率非常低。
优化1:特征缩放Feature scaling
将每个特征量范围尽量缩为:【-1,1】
公式:xi = (xi-ui)/si 其中ui为训练数据中xi的平均值,si为xi范围。
优化起因:下降幅度a的设置问题。a过大会造成无法下降到局部最优。a过小会造成循环 次数 过多。
优化2:正确设置a。
另一种较好方法通过算法来选择a.如fminunc算法。