各种术语
Prob 模型显著性
(显著性,又称统计显著性(Statistical significance), 是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平。)
方差齐性检验意义在于反映了一组数据与其平均值的偏离程度
过拟合与欠拟合
过拟合: 将随机误差拟合到模型。 表现为训练集拟合效果特别好,测试集拟合很差
欠拟合: 没有拟合到足够的规律。
多元线性回归
过拟合在于模型拟合了过多的误差。
消除过拟合就是要减少系数w的敏感性,添加对w的惩罚项,这也是岭回归和Lasso回归的原理
模型选择
AIC(Akaike Information Criterion,赤池信息准则) 是日本统计学家赤池,根据极大似然估计原理,提出的 一种常用的选择标准。AIC值较小的模型要优先选择,它 说明模型用较少的参数获得了足够的拟合度。
BIC (Bayesian Information Criterion,贝叶斯信息准 则)同样可以作为选择标准,使BIC达到最小的模型是“ 最优”模型。
多数情况下,AIC和BIC的结果大同小异,但结果不 一致时,需注意BIC的惩罚项比AIC的力度要大,因此, AIC选出的模型更为保守(包含更多的变量),BIC恰恰 相反
交互项
多元线性回归模型语法: model = ols(formula=‘y~x1+x2+…’,data=df)
多元线性回归模型交互项语法: ols(formula=‘y~x1+x2+x1:x2’,data=df)
语 法 简 写 : ols(formula=‘y~x1*x2’,data=df)
同理,x1*x2*x3等价于 ??1 + ??2 + ??3 + ??1: ??2 + ??1: ??3 + ??2: ??3 + ??1: ??2: ??3
多重共线性
多重共线性是指变量之间存在高度相关关系。可以 通过相关系数矩阵和方差膨胀因子(VIF)判断。
相关系数矩阵:df.corr()
方差膨胀因子:statsmodels.stats.outliers_influence. variance_inflation_factor()
一般来说,VIF大于4,即认为存在多重共线性。
向量范数
l1代表曼哈顿距离 l2代表欧式距离
下图为二维向量空间中的范数
岭回归与Lasso回归
多重共线性会使得自变量系数较大,ols没有对w中自变量的系数进行惩罚所以通常存在过拟合的情况,而由于岭回归和Lasso回归对w的系数进行了不同程度的惩罚,对于存在共线性的变量之间会基于类似某个等式系数抵消,使得自变量系数降低,AIC,BIC下降,过拟合和多重共线性明显下降. 不同的是,岭回归通过惩罚项,系数w的平方,对w进行约束, 从图形可以看出,这相当于同比例缩放所有系数,因此 难以对特征进行筛选,只能通过缩小无关特征的系数, 来减少特征的影响(共线性、噪声)。 而Lasso回归通过惩罚项,系数w得绝对值,对w进行 约束,可以对特征进行筛选,从而得到稀疏解,在一定 程度上消除特征的影响。(对这里保持疑问)
岭回归对w实施L2范数下的惩罚,Lasso回归对w实施L1范数下的惩罚。
回归模型 y = x1 + x2 + e 中, x2为期望 均值为0的随机数,此时岭回归和Lasso回归的结果有什 么不同?
这我也不知道, 希望大家留言解答。