线性回归

一、线性回归:

优点:结果易于理解,计算不复杂

缺点:对非线性的数据拟合不好

使用数据类型:数值型和标称型数据


二、标准线性回归:

已有一些对应的数据xy,求出回归方程

回归系数w^=(XTX)-1XTy

平方误差∑(yi-xiTw2

比较预测效果好坏:预测值和真实值之间的相关系数


三、局部加权线性回归

允许在估计中引入一些误差,给待预测点附近的每个点赋予一定的权重,从而降低预测的均方误差

回归系数w^=(XTWX)-1XTWy,大写W为权重,小写w为回归系数

高斯核对应的权重W(i,i)=exp(|x(i)-x|/(-2*k*k))xxi)越接近,w(i,i)越大,参数k决定附近点权重

存在问题:对每个点做预测时都必须使用整个数据集,增加了计算量

虽然使用较小的核可以得到较低的预测误差,但核过小会导致过拟合

此外,必须在未知数据上比较效果才能选取到最佳模型


四、缩减系数来“理解”数据

若数据特征比样本点还多——>缩减,从而去掉不重要的参数,模型增加了偏差却减小了方差:

岭回归概念、lasso法、前向逐步回归

1.岭回归

在矩阵XTX上加一个λI,使得矩阵非奇异,进而对XTX+λI求逆

回归系数w^=(XTX+λI)-1XTy

其中,矩阵Imxm的单位矩阵;λ是用户定义的数值,λ非常小时,岭回归的回归系数与普通回归一样;λ非常大时,所有回归系数为0;可在中间某处找到使预测效果最好的λ值

2.lasso

约束条件有所不同:

wk2≤λ ——普通的最小二乘法回归、岭回归

|wk|≤λ ——lasso,增加了计算复杂度

在λ足够小的时候,一些回归系数会被迫减到0

3.前向逐步回归

算法效果和lasso差不多,但更加简单

每一步都尽可能减少误差,属于贪心算法

所有权重初始化均为1,然后每一步所做的决策是对某个权重增加或减少一个很小的值

主要优点:帮助人们理解现有模型并作出改进,找出重要特征


五、偏差与方差和模型复杂度的关系

下图中,上方曲线为测试误差曲线,下方曲线为训练误差曲线

这里的方差是指模型之间的差异,偏差是指模型预测值与数据之间的差异





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值