（吴恩达机器学习）多变量线性回归

最新推荐文章于 2022-10-26 18:22:45 发布

STILLxjy

最新推荐文章于 2022-10-26 18:22:45 发布

阅读量609

点赞数

分类专栏： ——机器学习—— 机器学习

本文链接：https://blog.csdn.net/STILLxjy/article/details/80460564

版权

——机器学习—— 同时被 2 个专栏收录

30 篇文章 3 订阅

订阅专栏

机器学习

6 篇文章 2 订阅

订阅专栏

前面的博客我们已经谈过梯度下降算法的核心思想，并在单一变量的情况下做了说明。理解了单变量线性回归那么多变量线性回归就很简单了，思想和操作都是一样的，只不过更一般化了而已。这里我们主要说明一些多变量梯度下降算法的使用技巧和正规方程的使用。

1特征缩放：

对于多变量的情况，每个变量的含义都不相同，变量的取值范围和量度也都不太一样，所以我们不能仅仅将变量的原始值带入进行研究。

例如：对于房价问题，房子有面积和楼层两个属性变量，但是面积可以很大，1000都可以，但是楼层最大也就几十。若两个属性值都为100，按照相同的度量看待这两个数值的话，会有一定的’曲解’，100对于面积而言其实算小的，但是100对于楼层而言就非常非常大了。所以我们应该按照不同的度量来看待不同的属性值，或者统一化。

特征缩放就是进行统一化：*特征缩放就是使得各属性变量值在相近的范围内，便于代价函数迭代收敛。否则等高线图会十分的细窄，会使得收敛的速度变得很慢。

特征缩放公式： xi = (xi - μi)/Si 其中xi为原属性值，μi为x的平均值，Si为x的范围即最大值-最小值。
公式的含义就是用每个属性值在整个属性值范围内所占的比重来度量该属性值的影响。

2学习率α如何选择：

学习率α的取值，决定了代价函数是否会根据迭代而趋于收敛和趋于收敛所要迭代的次数。若学习率过大，代价函数将不会收敛，一般随着迭代的进行，代价函数不是一直在减小，那么可能的原因就是学习率过大，我们应该选择更小的学习率α。但是只要学习率足够小，代价函数一定是趋于收敛的，不过α太小会使得代价函数趋于收敛前的迭代次数变得很大，效率低下，所以我们应该在收敛的情况下选择尽可能大的α，那样会使得迭代的次数减少。所以我们对于学习率α取值的选择方法是：先选择较小的学习率，例如0.001，然后3倍3倍的往上加大，直到选择一个尽可能大的学习率α出来。

正规方程：
不用进行迭代，一步完成最有θ的求解。（类似于二次函数求最小值点，直接求导数为0的点即可）

梯度下降算法是通过不断地迭代更新，从而达到最优点。但是对于一个凸函数而言，我们可以使用正规方程还求解。对于最优点有这样的特性：它的导数必定为0，所以我们不用进行梯度下降迭代，而是直接求出所有变量的导数然后置0，求解方程就可，（类似于二次函数求最小值点，直接求导数为0的点即可），进过计算结果如下：

这里写图片描述