一、线性回归:
优点:结果易于理解,计算不复杂
缺点:对非线性的数据拟合不好
使用数据类型:数值型和标称型数据
二、标准线性回归:
已有一些对应的数据x和y,求出回归方程
回归系数w^=(XTX)-1XTy
平方误差∑(yi-xiTw)2
比较预测效果好坏:预测值和真实值之间的相关系数
三、局部加权线性回归
允许在估计中引入一些误差,给待预测点附近的每个点赋予一定的权重,从而降低预测的均方误差
回归系数w^=(XTWX)-1XTWy,大写W为权重,小写w为回归系数
高斯核对应的权重W(i,i)=exp(|x(i)-x|/(-2*k*k)),x与x(i)越接近,w(i,i)越大,参数k决定附近点权重
存在问题:对每个点做预测时都必须使用整个数据集,增加了计算量
虽然使用较小的核可以得到较低的预测误差,但核过小会导致过拟合
此外,必须在未知数据上比较效果才能选取到最佳模型
四、缩减系数来“理解”数据
若数据特征比样本点还多——>缩减,从而去掉不重要的参数,模型增加了偏差却减小了方差:
岭回归概念、lasso法、前向逐步回归
1.岭回归
在矩阵XTX上加一个λI,使得矩阵非奇异,进而对XTX+λI求逆
回归系数w^=(XTX+λI)-1XTy
其中,矩阵I是mxm的单位矩阵;λ是用户定义的数值,λ非常小时,岭回归的回归系数与普通回归一样;λ非常大时,所有回归系数为0;可在中间某处找到使预测效果最好的λ值
2.lasso
约束条件有所不同:
∑wk2≤λ ——普通的最小二乘法回归、岭回归
∑|wk|≤λ ——lasso,增加了计算复杂度
在λ足够小的时候,一些回归系数会被迫减到0
3.前向逐步回归
算法效果和lasso差不多,但更加简单
每一步都尽可能减少误差,属于贪心算法
所有权重初始化均为1,然后每一步所做的决策是对某个权重增加或减少一个很小的值
主要优点:帮助人们理解现有模型并作出改进,找出重要特征
五、偏差与方差和模型复杂度的关系
下图中,上方曲线为测试误差曲线,下方曲线为训练误差曲线
这里的方差是指模型之间的差异,偏差是指模型预测值与数据之间的差异