数据挖掘学习–基于最小二乘法的线性回归算法(算法理论知识)
1.前言
本人是计算机专业研一学生,在机器学习数据挖掘方面是小白。近期自学数据挖掘,看到最小二乘法在回归算法中的应用,写点东西来记录自己的学习过程。
2.回归算法
关于回归算法,和在数据挖掘中的分类算法有着如出一辙的功能,但是他们之间为何不是同一样东西呢,原因就是分类算法解决的数据是离散的属性,也就是他们的训练数据和待分类数据是离散的。而面对连续属性的数据,分类算法显得不那么恰当了。自然就想到了使用线性回归的方法,将可能会出现连续属性的数据回归到一条直线方程或者是超平面上,也达到了进行分类预测的目的。
2.最小二乘法
关于最小二乘法,这是一种数学方法,又称做是最小平方法。这种数学方法是利用最小化实际值与预计值(选择的一条回归直线或回归超平面)之间的误差,从而得到一条更优的回归直线方程。通过最小化误差(拟合误差或者总残差)得到回归性更强,预测更加准确的回归方程。
3.最小二乘法应用的推导过程
我们现有的训练数据(使用训练数据建模),训练数据假设为最简单的二元组(x1,y1,x2,y2,…,xn,yn),同时也假设这些训练数据点都比较靠近一条直线 y = ax + b,而由于有训练数据即可以进行总残差即拟合误差计算:
通过将这个总残差最小化,由