1.1.1. Ordinary Least Squares（普通最小二乘）

最新推荐文章于 2024-02-09 09:28:22 发布

matrix_studio

最新推荐文章于 2024-02-09 09:28:22 发布

阅读量1.4k

点赞数 2

分类专栏：从sklearn学机器学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matrix_studio/article/details/121022064

版权

从sklearn学机器学习专栏收录该内容

23 篇文章 32 订阅

订阅专栏

本文深入介绍了线性回归模型，包括其数学表达式和目标，以及如何使用fit()、coef_和predict()进行训练和预测。重点关注了多重共线性问题，解释了它如何导致模型估计不准确，并提出了如PCA降维和岭回归等解决方案。此外，还讨论了非负最小二乘法在线性回归中的应用。最后，提到了普通最小二乘法的时间复杂度为O(nsamples*nfeatures^2)。

摘要由CSDN通过智能技术生成

1.1.1. Ordinary Least Squares

注：
本文所指线性回归，若非特别强调，均指最基础的线性回归模型

一、简介

在这里插入图片描述
线性模型的数学体现是：
$\hat{y}=\omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_n$

首先要明确，我们的最终目的是要达到：对于给定的自变量vector x, 我们能根据已知的coef_vector $\omega$ 预测出最接近真实情况的 $\hat{y}$ .

所以，在模型训练阶段，我们的需求是找到最合适的coef_使得预测值 $\hat{y}$ 与它的真实值y尽可能的接近。

二、应用

用fit()拟合函数
用coef_输出参数
用predict()预测

在这里插入图片描述

三、多重共线性

1.文档

先看官方文档
在这里插入图片描述
下面这是翻译

2.解释

最后我们来解释一下这个所谓的多重共线性是个什么东西。

百度百科是这样解释的：

这个东西表达了什么？

它提到了一种让模型变得估计失真或难以估计准确的情况
这种情况是：变量之间存在精确相关性或高度相关关系

这种情况怎么理解？

就是当特征A与特征B高度相关，或者特征C可以由D和E线性表示时，我们稍稍调整A或D的值（例如存在某个离群点或者异常值），B和C也会相应的波动。这种波动在相似特征较多时会被放大，但是这种很大波动很可能只是一个异常值引起的，所以多重共线性最终会导致模型估计失真或难以估计准确

3.如何解决

画热力图（协方差矩阵）选择特征进行训练（在特征数目较少的情况下）
PCA降维（1.降维后特征失去原本的语意；2.测试集和真实预测时也要降维）
可以尝试Ridge regression（岭回归）来解决问题

四、线性回归的系数（非负）

在这里插入图片描述

这里介绍了一种情况，那就是当实际问题中参数均非负时，我们可以采用非负的最小二乘。当然，文档提供的事例证明了在系统限定系数下，NNLS要比OLS更好

五、时间复杂度

在这里插入图片描述

根据矩阵论中的奇异值分解，可以计算出，普通最小二乘的时间复杂度是O( $n_{samples}n_{features}^2$ )

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。