Python机器学习 — 线性回归（Linear Regression）

最新推荐文章于 2024-09-14 13:58:53 发布

ls秦

最新推荐文章于 2024-09-14 13:58:53 发布

阅读量5.5w

点赞数 68

分类专栏： Python机器学习文章标签：线性回归 Python 机器学习

本文链接：https://blog.csdn.net/qq_38328378/article/details/80775351

版权

本文详细介绍了线性回归，包括一元和多元线性回归的概念、步骤及模型建立。通过最小二乘法和梯度下降算法求解模型参数，并探讨了这两种方法在实际应用中的差异。最后，通过实例展示了线性回归模型的建立和结果分析。

摘要由CSDN通过智能技术生成

线性回归 -- 简介

线性回归是机器学习算法中最简单的算法之一，它是监督学习的一种算法，主要思想是在给定训练集上学习得到一个线性函数，在损失函数的约束下，求解相关系数，最终在测试集上测试模型的回归效果。

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为 $y=\omega ^{'}x+e$ ， $e$ 为误差服从均值为0的正态分布。

回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

线性回归分析

一元线性回归：一个解释变量

多元线性回归：多个解释变量

线性回归 -- 步骤

回归分析的步骤：

1、根据预测目标，确定自变量和因变量；

2、绘制散点图，确定回归模型类型；

3、估计模型参数，建立回归模型；

4、对回归模型进行检验；

5、利用回归模型进行预测；

线性回归 -- 一元线性回归

一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量，被估计的变量，称因变量，可设为；估计出的变量，称自变量，设为。回归分析就是要找出一个数学模型 $y=f\left ( x \right )$ ，使得从估计可以用一个函数式去计算。当 $y=f\left ( x \right )$ 的形式是一个直线方程时，称为一元线性回归。这个方程一般可表示为 $y=\omega x+b$ 。根据最小平方法或其他方法，可以从样本数据确定常数项与回归系数 $\omega$ 的值。、 $\omega$ 确定后，有一个的观测值，就可得到一个的估计值。回归方程是否可靠，估计的误差有多大，都还应经过显著性检验和误差计算。有无显著的相关关系以及样本的大小等等，是影响回归方程可靠性的因素。

现实世界中的数据总是存在各种误差，比如测量工具的误差，人度数的误差等等。而且数据的产生也大部分是一个随机的过程。所以如果现实世界中存在某些线性关系，那么这个关系也一定是近似的。所以其一次函数其实是这样的：
y=kx+b+e
其中 $\small e$ 是数据偏离线性的误差，这个误差是服从正态分布的。什么！你还不知道什么是正态分布？那请先学习下相关知识。就是因为这个 $\small e$ 的存在，所以对于每一组数据 $\left ( x,y \right )$ ，他们的误差都是不同的，所以在前面那个式子中，我们不能使用待定系数法求得尽量精确的解。所以就需要一个更高端的做法。

线性回归的方法

为了求解出最小的 $\sum_{i=1}^{n}\left |e _{i} \right |$ ，我们可以其实可以利用平方消去其中的绝对值符号，得到了我们的要求的式子：

$\small S=\sum_{i=1}^{n}e^{2}=\sum_{i=1}^{n}\left (y _{i} \right-kx_{i}-b )^{2}$

为了取到最小的S，我们可以对上式分别对和求偏导，并令它们为 $0$ ，以求的S的极值，即：

$\large \begin{align*} \frac{\partial S}{\partial k}&=-2\sum_{i=1}^{n} x_{i}\left (y_{i}-kx_{i}-b \right )\\&=-2\sum_{i=1}^{n}\left (x_{i}y_{i}-kx_{i}^{2} -bx_{i} \right )\\&=0 \end{align*}$ $\bg_white \large \begin{align*} \frac{\partial S}{\partial b}&=-2\sum_{i=1}^{n} \left (y_{i}-kx_{i}-b \right )\\&=0 \end{align*}$