统计与机器学习发展的三条主线（三）

最新推荐文章于 2023-10-24 20:24:09 发布

data_honey

最新推荐文章于 2023-10-24 20:24:09 发布

阅读量485

点赞数 2

本文链接：https://blog.csdn.net/hfutxiaoguozhi/article/details/78744289

版权

本文探讨线性回归模型的两个拓展方向：一是因变量从连续到离散，引出逻辑斯蒂回归和泊松回归等广义线性模型；二是自变量的选择问题，介绍了逐步回归、lasso回归和岭回归在解决小N大P问题中的应用。

摘要由CSDN通过智能技术生成

昨天带领大家沿着线性回归的路线走了一下，我们谈到线性回归有两个点子可以发展，一个点子就是从线性回归线上点的含义发展，线性回归直线上的每个点代表在给定x的情况下，y的均值，既然有均值，也就是存在实际存在着y的一个分布。实际上我们是在损失函数为均方损失的条件下，利用最小二乘法得到的就是均值，如果损失函数是绝对值函数呢，得到的就是中位点回归，也叫鲁棒回归（robust regression），为什么叫它鲁棒呢，因为它对异常值点不像均值回归那样敏感。如果是损失函数是分位点损失函数，那么得到的就是分位点回归直线了。这是线性回归可以拓展的一个方面，另一个方面呢，就是将线性回归当中自变量x换成x的函数，我们说换了之后，我们还可以按照之前的计算步骤将结果计算出来，也就是仍然统一在一个框架下，这点是很重要的。这样的话，我们就可以发展出来多项式回归，样条回归，核回归等一系列回归，并且他们都成加性形式（additive model），而加性模型的出现，又很大程度上推动了几个模型的发展。

以上是我们昨天沿着线性回归可以拓展的两个点子进行的扩展，那么我们今天呢，继续沿着线性回归模型的其他点子进行扩展。哪两个点呢。一个是因变量y的拓展，另一个角度市自变量x选择的角度（variable selection）。那么我们下面就带着大家理解一下。我们先说因变量y，我们在一般线性回归模型当中，因变量y是连续变量，但是实际生活当中存在y是离散的变量，比如y代表是否违约，y=1代表违约࿰