在回归问题中,一元线性回归算是最基础最简单的回归模型,样本维数低且样本分布满足线性关系,我们可以用线性模型去拟合样本分布,利用训练好的模型进行新样本预测。在求解线性模型的参数时,通常利用最小二乘法求解,下面是具体推导过程:
在上述推导过程中,定义的损失函数为均方误差,在一定程度上,均方误差和最小二乘法是相同的。我们使均方误差最小,即对原样本拟合的程度越高,利用导数求解损失函数最小值,得到参数的取值就是线性模型的最优参数。
下面利用sklearn验证一下
按照推算公式计算一下:
数值对上,证明推导结果正确。在用公式验证时,也会发现,利用变形后的式子可以避免用到样本数量n的取值,只需针对已知样本的各个数值即可。
这个参数公式只针对一元线性回归,当样本数据维度变高时,推导的思想仍然不变,利用损失函数最小值来推算参数的取值,但数据维度变高也意味着参数维度同样会变高,上图中的参数w维数也要相应变成样本的维度数。