简单来说,回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)进行预测。主要包括线性回归和非线性回归。
线性回归中又包括:一元线性、多元线性以及广义线性(代表为逻辑回归,下一节讲)
在应用中,我们往往不知道是否能用线性回归。因此我们可以使用相关系数去衡量线性相关性的强弱。
使用平方误差和衡量预测值不真实值的差距:
我们希望平方误差越小越好,这代表拟合程度越高。
求取最小值,可以使用两种方法。分别是最小二乘法和梯度下降法(包括其改进算法)。
最小二乘法一步到位,但是矩阵不可逆的情况下无效。
梯度下降法则不会。关于梯度下降法的讲解网上很多,简单来说就是根据学习率不断更新参数,使得平方误差达到极小点。但容易出现局部最小点,而非全局最小点的情况。因此需要选择合适的α(学习率)。学习率太小,则下降慢;学习率过大,容易越过最小值点,无法收敛。
我们可以使用特征缩放(