回归是一种通过建模和分析变量之间关系的的方法,其目的是通过模型来计算得出一个具体的值。回归模型有两种,一种是可以用一条回归线拟合的数据,有明显的函数关系,可以通过线性性回归等方式进行拟合;第二种就是无明显线性关系,这时候就认为长得相似的样本值也相同。常用算法如下:
一、线性回归
(一)原理
回归分析用来确定两种或两种以上变量间相互依赖的定量关系,其表达形式为y = w'x+e,其中只有一个自变量的情况称为简单回归,多个自变量的情况叫多元回归。
目标函数:预测值与实际值的误差平方和。误差越小匹配越好。
(二)优缺点
1.优点
- 结果易于理解,计算不复杂
2.缺点
- 对非线性的数据拟合不好
- 当特征冗余,即如果存在多重共线性时,线性回归就不太稳定
- 对异常值敏感
二、岭回归
(一)原理
线性回归无法用于特征变量间存在高共线性的情况。岭回归在线性回归的基础上加上了L2正则化参数,L2正则项起到使得参数w变小加剧的效果,L2正则化参数目的是使损失函数最小,保持各项