预测数值型数据:回归
-
用线性回归找到最佳拟合直线
首先说一下回归的目的:回归的目的是预测数值型的目标值。最直接的办法就是一句输入写出一个目标值的计算公式。例如:想要预测汽车的功率大小,可能会计算:
HorsePower=0.0015*annualSalary-0.99*hoursListeningToPublicRadio
这就是所谓的回归方程,其中0.0015和-0.99称作;回归系数(regression weights),求这些回归系数的过程就是回归。一旦有了谢谢回归系数,在给定输入,做预测就非常容易。具体做法就是:用回归系数乘以输入值,再将结果全部累加在一起,就得到预测值。
怎么从一大堆数据中求出回归方程呢:假定输入数据存放在矩阵X中,而回归系数存放在向量w中。那么对于给定的数据x1预测结果通过Y1=XT1w给出。那么怎样找出w呢?一个常用的方法是找出使误差最小的w。这里的误差是指,预测y和真是y之间的差值,使用误差的简单累加将会是正负相互抵消,所以这里采用的是平方误差。
平方误差:
采用矩阵的表示形式为(y-Xw)T(y-Xw)。对w求导,得到XT(Y-Xw),令其等于零,则解出w为: