一、算法简介
回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集拟合函数间的误差最小。如果这个函数曲线是一条直线,就被称为线性回归。
- 优点:结果易于理解,计算上不复杂
- 缺点:对非线性的数据拟合不好
- 适用数据类型:数据型和标称型数据
二、具体介绍
回归的目的就是建立一个回归方程用来预测目标值,回归的求解就是求这个方程的回归系数,预测方法就是用回归系数乘以输入数据再全部相加就得到了预测结果。假定输入数据存放在矩阵X中,而回归系数存放在向量w中,那么对于给定的数据X1,预测结果将会通过给出。
现在的问题是,如果有一些x和对应的y,怎么才能找到w呢?
一个最简单的方法就是找出使误差最小的w。这里的误差是指预测y值与真实y值之间的差值,使用该误差的简单累加将使得正差值和负差值相互抵消,所以我们采用平方误差(最小二乘法)。平方误差可以写作:
三、最小二乘法在线性回归中的使用
1、基本介绍:通