Python以及线性回归复习整理(四)线性回归

各种术语

Prob 模型显著性

(显著性,又称统计显著性(Statistical significance), 是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平。)

方差齐性检验意义在于反映了一组数据与其平均值的偏离程度

过拟合与欠拟合

过拟合: 将随机误差拟合到模型。 表现为训练集拟合效果特别好,测试集拟合很差

欠拟合: 没有拟合到足够的规律。 

多元线性回归

过拟合在于模型拟合了过多的误差。

消除过拟合就是要减少系数w的敏感性,添加对w的惩罚项,这也是岭回归和Lasso回归的原理

模型选择

AIC(Akaike Information Criterion,赤池信息准则) 是日本统计学家赤池,根据极大似然估计原理,提出的 一种常用的选择标准。AIC值较小的模型要优先选择,它 说明模型用较少的参数获得了足够的拟合度。

BIC (Bayesian Information Criterion,贝叶斯信息准 则)同样可以作为选择标准,使BIC达到最小的模型是“ 最优”模型。

多数情况下,AIC和BIC的结果大同小异,但结果不 一致时,需注意BIC的惩罚项比AIC的力度要大,因此, AIC选出的模型更为保守(包含更多的变量),BIC恰恰 相反

交互项

多元线性回归模型语法: model = ols(formula=‘y~x1+x2+…’,data=df)

多元线性回归模型交互项语法: ols(formula=‘y~x1+x2+x1:x2’,data=df)

语 法 简 写 : ols(formula=‘y~x1*x2’,data=df)

同理,x1*x2*x3等价于 ??1 + ??2 + ??3 + ??1: ??2 + ??1: ??3 + ??2: ??3 + ??1: ??2: ??3

多重共线性

多重共线性是指变量之间存在高度相关关系。可以 通过相关系数矩阵和方差膨胀因子(VIF)判断。

相关系数矩阵:df.corr()

方差膨胀因子:statsmodels.stats.outliers_influence. variance_inflation_factor()

一般来说,VIF大于4,即认为存在多重共线性。

向量范数

l1代表曼哈顿距离 l2代表欧式距离

下图为二维向量空间中的范数

岭回归与Lasso回归

多重共线性会使得自变量系数较大,ols没有对w中自变量的系数进行惩罚所以通常存在过拟合的情况,而由于岭回归和Lasso回归对w的系数进行了不同程度的惩罚,对于存在共线性的变量之间会基于类似某个等式系数抵消,使得自变量系数降低,AIC,BIC下降,过拟合和多重共线性明显下降. 不同的是,岭回归通过惩罚项,系数w的平方,对w进行约束, 从图形可以看出,这相当于同比例缩放所有系数,因此 难以对特征进行筛选,只能通过缩小无关特征的系数, 来减少特征的影响(共线性、噪声)。 而Lasso回归通过惩罚项,系数w得绝对值,对w进行 约束,可以对特征进行筛选,从而得到稀疏解,在一定 程度上消除特征的影响。(对这里保持疑问)

岭回归对w实施L2范数下的惩罚,Lasso回归对w实施L1范数下的惩罚。

回归模型 y = x1 + x2 + e 中, x2为期望 均值为0的随机数,此时岭回归和Lasso回归的结果有什 么不同?

这我也不知道, 希望大家留言解答。 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值