机器学习 | 回归问题
更多内容,关注wx公众号:数据分析这件小事儿
对于监督学习,其基本问题就是使用特征向量x预测响应变量y,如果响应变量y为连续变量,则称为回归问题。
用x来预测y,是否存在一个最优的预测函数g(x),一般使用均方误差(MSE)来作为预测优良程度的度量:
最小二乘法
普通最小二乘法(OLS)是估计线性回归模型的基本方法,以一元线性回归为例,有一个特征变量x,OLS的任务就是根据训练数据来估计回归方程y=a+bx,其思想是在平面上找到一条最佳拟合直线,使得所有样本点到此拟合线的距离最近。
在此平面上,任意给定一条直线,可以计算每个观测点到这条直线的距离,称为残差:
最小二乘法就是要求残差平方和达到最小时的未知参数估计值,“二乘”即“平方”。在数学上,OLS的目标函数也称为损失函数:
若是二元回归,就是要寻找最佳拟合的回归平面。