1、什么是回归问题:目标值是连续型数据,这一类问题是回归问题。解决这类问题的算法就是回归算法。线性回归就是其中的基本算法。
2、线性回归是利用回归方程对一个或多个自变量和因变量之间关系进行建模的一种分析方式。
找到特征值和目标值之间的函数关系。
3、通用公式:
4、线性回归中线性模型有两种:线性关系、非线性关系(用曲线拟合)
非线性关系:回归方程可以理解为:(参数是一次的)
5、真实关系、假定关系,之间有一个误差,使用一个方法使得这个误差不断减少接近于零。使得损失减少。此时的参数就是所求参数。
损失函数(cost):
又称为最小二乘法
如何使得损失最小?
优化算法:正规方程、梯度下降
正规方程:
x为特征矩阵、y为目标值矩阵,直接求解
即对矩阵求导,使得导数得零,求得最小值(相当于一元二次函数)求得w。
当特征值过多复杂时,求解速度太慢并且得不到结果
6、回归性能评估:
均方误差:
yi:预测值 y:真实值
均方误差越小,模型越好
7、梯度下降,原始的梯度下降法需要计算所有样本的值才能够的出梯度,计算量大。
改进:
1)随机梯度下降,是一个优化方法,在迭代时只考虑一个样本
2)随机平均梯度法,
8、欠拟合与过拟合
过拟合:训练集上表现的好,测试集上表现的不好。学习到的特征过多,模型过于复杂
欠拟合:学习到的特征少,识别范围过大,模型过于简单
欠拟合的原因及其解决办法:
原因:学习到的特征数据过少
解决:增加特征数量
过拟合的原因及其解决办法:
原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型去兼顾各个测试数据点
解决:正则化(减少高次项的影响)
L1正则化
L2正则化(更常用)
图1一条直线拟合,模型过于简单,欠拟合,图3有许多高次项,过于复杂,图2既不简单又不复杂
解决过拟合:使高次项的模型参数小一些
L2正则化:使得其中的一些w都很小,都接近于0,削弱某个特征的影响
加入L2正则化后的损失函数:
让损失函数减小的同时,w权重也会减小,即降低了高次项的影响
L1正则化:使得其中的一些w直接为0,删除这个特征的影响
9、带有L2正则化的线性回归,岭回归