第二节课Q&A

1. 为什么不能直接用线性回归做分类?

1.从线性回归的假设方面来说

线性回归模型是基于输出的结果Y是连续的、除去协变量X1,…,Xp带来的均值系统方差后,误差服从正态分布这一假设上的。如果输出变量是二元的,明显违反了这一假设,由此一般认为这样的结论是无效的。

实际上就算是二元的,结果也不会特别坏。虽然如果结果是二元的,条件正态的假设不再成立,但是如果假定形式里的结果的期待值是正确地基于协变量的,比如E(Y|X1,…,Xp)是正确的,线性回归的参数估计是无偏的。但是我们基于结果正态的假设而计算出的标准误(standard errors)和置信区间会因此无效。

2.条件方差不能保持不变

二元数据的方差是均值的函数,尤其是当均值变化时,方差也随之变化。这违反了标准线性回归的假设:残差的方差是不变的。

3.预测值可能会超出范围

二元结果结果的均值等同于出现‘1’的概率。如果我们使用线性回归来对二元结果建模,有很大的几率我们得到的拟合回归将会对个别值给出超出(0,1)范围的结果。

4.一致性连接可能会出错

当结果是二元时如果出现拟合值超出(0,1)范围的情况,实际上是一个征兆,预示着对线性回归的“结果是协变量影响的附加线性组合”的假设不再正确,尤其是当我们只有一个连续的协变量时。这意味着对E(Y|X1,…,Xp) 是如何基于协变量的已建立模型不再正确。这一点的表现是模型预测的自我校准能力很弱,比如在不同的协变量值的组合中对1的预测概率会过高或过低。 相反的是,在逻辑回归中使用的效用函数中,任何线性预测值会被转换为有效的(0,1)的预测概率。虽然在效用规模(logit scale)上并不是所有协变量效用都是线性的,但是使用效用函数的得到的结果明显比单单用“均值是协变量与它们各自的系数相乘的线性组合”这样的假设更有说服力。

总的来说,虽然会有用线性回归对二元结果建模并且结果不是特别差的情况,但一般来说这不是一个好的办法。本质上这是在用错误的工具进行作业。

2. 多重共线性变量会给逻辑回归带来什么问题?为什么?怎么处理?

一、共线性的原理

假设有k个自变量的多元线性回归模型:
在这里插入图片描述
其中偏差项是一个指望值为0且服从正态分布的随机变量:
在这里插入图片描述
则利用最小二乘法可得参数的估计值为:
在这里插入图片描述
该求解公式惟一的条件是矩阵X是列满秩的,否则会有无穷多解:
在这里插入图片描述
当各变量之间存在共线性问题,即各变量之间存在部分线性相关时,例如:
在这里插入图片描述
易知此时X近乎是不满秩的(实际状况很难彻底共线性),X^TX近乎是奇异的,X的最小奇异值会很是小,那它的影响到底有多大呢?咱们先从矩阵计算的角度来看。

1.1 扰动分析

对于一个方程或者系统而言,当输入有一个很是微小的扰动时,咱们但愿方程或系统的输出变化也很是微小,若是输出的变化很是大,且不能被控制,那这个系统的预测就无效了,蝴蝶效应讲的就是这个。在矩阵计算中,这叫作扰动分析。

【扰动分析定理】设非奇异方阵A知足方程spa
在这里插入图片描述
它的精确解为x* ,当A存在一个小扰动时,假设 x ^ \hat{x} x^ 是新方程的解:在这里插入图片描述
能够证实x* 的扰动知足:
在这里插入图片描述
能够看到矩阵的条件数越大,扰动就越大,即x的求解值会变得很是不许确。回到上面讲的线性回归问题,容易证实最小二乘法的解知足下面的正定方程:
在这里插入图片描述
此时
在这里插入图片描述
当方程有共线性问题时,X的最小特征值很是小,相应的,上述的条件数会很是大。也就是说机器学习中的共线性问题实际上就是矩阵计算中的条件数问题。

从实际应用的角度,通常若K<100,则认为多重共线性的程度很小,如果100<=K<=1000,则认为存在通常程度上的多重共线性,如果K>1000,则就认为存在严重的多重共线性。

1.2 方差分析

再从统计学的角度来看共线性。能够证实参数的协方差矩阵为

在这里插入图片描述
又对任意的常数矩阵A和随机变量x有
在这里插入图片描述
代入上式便可得
在这里插入图片描述
具体到每一个参数,有:

在这里插入图片描述
其中是将第i个变量做为因变量,其余k-1个变量做为自变量进行线性回归得到的,且令
在这里插入图片描述
为方差膨胀因子(variance inflation factor,VIF)。当

在这里插入图片描述
时,即当第i个变量和其余变量之间存在线性关系时,VIF趋于无穷大。因此 VIF 的大小反应了变量的共线性程度。通常地,当VIF大于5或10时,认为模型存在严重的共线性问题。

同时考虑参数显著性检验的 t 统计量:
在这里插入图片描述
当存在共线性时,参数的标准差偏大,相应的 t 统计量 会偏小,这样容易淘汰一些不该淘汰的解释变量,使统计检验的结果失去可靠性。

另外考虑线性回归的残差
在这里插入图片描述
其中M是一个投影矩阵,且知足在这里插入图片描述
易证实
在这里插入图片描述
在这里插入图片描述
而矩阵M的范数与X的条件数毫无关系,因而能够得出共线性并不影响模型的训练精度。可是对于泛化精度,因为参数的估计已经不许确啦,因此泛化偏差确定要差些,具体差多少,我还很难用公式表示出来。

总结一下,共线性问题对线性回归模型有以下影响:

参数的方差增大;
难以区分每一个解释变量的单独影响;
变量的显著性检验失去意义;
回归模型缺少稳定性。样本的微小扰动均可能带来参数很大的变化;
影响模型的泛化偏差。

如何处理?

2.1 PCA等降维法

主成分分析法做为多元统计分析的一种经常使用方法在处理多变量问题时具备其必定的优越性,其降维的优点是明显的,主成分回归方法对于通常的多重共线性问题仍是适用的,尤为是对共线性较强的变量之间。当采起主成分提取了新的变量后,每每这些变量间的组内差别小而组间差别大,起到了消除共线性的问题。

2.2 逐步回归法

逐步回归(Stepwise Regression)是一种经常使用的消除多重共线性、选取“最优”回归方程的方法。其作法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,若是原来引入的变量因为后面变量的引入而变得再也不显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F 检验,以确保每次引入新变量以前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。

第一:创建所有变量的回归方程
第二:分别创建单独的回归方程,依照t检验和拟合度依次加入各变量来构建回归方程
第三:判断新引入的变量,对于以前的系数影响是否显著,是否符合实际以及对于拟合度的变量,来选择是否将变量引入模型中。
2.3 岭回归、L2正则化(ridge regression)

岭回归是一种可用于共线性数据分析的有偏估计回归方法,它是一种改良的最小二乘估计法,经过放弃最小二乘法的无偏性,以损失部分信息、下降精度为代价得到回归系数更为符合实际、更可靠的回归方法,对条件数很大(病态数据)的拟合要强于最小二乘法。

在线性回归问题中,最小二乘法其实是最小化问题:
在这里插入图片描述
而岭回归则是加入了L2惩罚项:
在这里插入图片描述
这样参数的方差不会过大,且随着惩罚项系数C的增大,共线性的影响将越来也小。在这个过程当中,能够记录 (岭迹)的变化状况,经过对岭迹的波动来判断咱们是否要剔除该变量。

那为何说岭回归能解决共线性问题呢?从矩阵计算的角度来看,L2正则化下方程的解为:
在这里插入图片描述
在上一节咱们讲到共线性表明正定矩阵XTX的条件数很大:

在这里插入图片描述
而当条件数很大时,矩阵的逆的数值计算也是很是不许确的,可是当咱们给矩阵加上一个单位矩阵时,奇异性(不可逆)问题就彻底没有啦。

进一步考虑对惩罚项对奇异值的影响,假设X的奇异值(SVD)分解为:
在这里插入图片描述
则容易证实
在这里插入图片描述
其中D是对角矩阵,且知足
在这里插入图片描述
其反应了惩罚项是如何影响到条件数的。

2.4 LASSO回归

LASSO回归和岭回归相似,只不过将惩罚项由L2范数改成了L1范数

在这里插入图片描述
L1范数没有L2范数那么圆润,毕竟存在不可导点,并且在L1范数下LASSO回归也给不出解析解啦,可是相对于岭回归,LASSO估计的参数能更容易收敛到0

2.5 ElasticNet回归等

ElasticNet回归同时兼顾了L1和L2惩罚项:
在这里插入图片描述
当许多变量是相关的时候,Elastic-net是有用的。Lasso通常会随机选择其中一个,而Elastic-net则会选在两个。

除此以外,还有L0范数(非零元的个数)、L1/2范数等。

3. l1与l2正则化会给模型带来什么影响,为什么?

L1正则化可以使得参数稀疏化,即得到的参数是一个稀疏矩阵,可以用于特征选择。
稀疏性,就是模型的很多参数是0。通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个(bigram)。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,很多参数是0,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,即使去掉对模型也没有什么影响,此时我们就可以只关注系数是非零值的特征。这相当于对模型进行了一次特征选择,只留下一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。

L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合。

4. 逻辑回归本身只具备线性的表达能力,如何让模型学会非线性关系?

这个问题我有点摸不着头脑,按照我的理解话,因为逻辑回归是在线性回归的基础上加了一个 Sigmoid 函数(非线形)映射,使得逻辑回归称为了一个优秀的分类算法。所以他就学会了非线性的关系?是这样吗?感觉又不太对哈哈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值