1.特征归一化(缩放)
归一化,对于梯度下降算法来说,是很重要的。如果能够把各特征缩放到相似范围,能够加快收敛速度。如果范围差异太大,就要重新考虑特征,或者进行归一化。典型的归一化范围:[-1,1];[-1/3,1/3];[-3,3].
2.梯度下降中学习率确定
学习率过大,可能导致不收敛;学习率过小,收敛速度很慢。因此,选择一个合适的学习率非常重要。可先选取一些学习率,如0.001,0.01,0.1,1,…
例子:第一次选1,如果不收敛,可试0.3。如果0.3收敛,则可选0.3,如果仍不收敛,可取0.1,继续进行实验。直至选到合适的学习率
3.正规方程
区别于梯度下降的直接解法。比如,线性回归,列为矩阵方程:Ax = y。A是特征向量构成的矩阵,x是未知参数,y是已知数,则x = (ATA)(-1)ATy。
优点:不需要迭代,不需要确定学习率。
缺点:当特征向量维度很大,即A较大时,矩阵的乘法和求逆特别耗时,没有迭代法速度快。
一般当A的维度为上百或者上千时,可以使用直接解法。如果上万,甚至更大,就要考虑使用梯度下降方法或者其他方法。
吴恩达机器学习之多变量线性回归笔记
最新推荐文章于 2023-04-15 22:39:17 发布