Python简单线性回归算法实现及应用示例

亚图跨际

于 2023-11-29 18:35:35 发布

阅读量423

点赞数

分类专栏： Python 算法数学文章标签：算法 python 线性回归

本文链接：https://blog.csdn.net/jiyotin/article/details/134696560

版权

Python 同时被 3 个专栏收录

325 篇文章 24 订阅

订阅专栏

算法

57 篇文章 0 订阅

订阅专栏

数学

54 篇文章 0 订阅

订阅专栏

简单线性回归，是一种使用单个特征预测响应的方法。它是机器学习爱好者了解的最基本的机器学习模型之一。在线性回归中，我们假设两个变量，即因变量和自变量是线性相关的。因此，我们尝试找到一个线性函数，作为特征或自变量 (x) 的函数，尽可能准确地预测响应值 (y)。让我们考虑一个数据集，其中每个特征 x 都有一个响应 y 值：
$\begin{array}{|c|c|c|c|c|c|c|c|c|c|c|} \hline \mathbf{x} & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ \hline \mathbf{y} & 1 & 3 & 2 & 5 & 7 & 8 & 8 & 9 & 10 & 12 \\ \hline \end{array}$
为了一般性，我们定义：

x 作为特征向量，比如 $x=\left[x_{-} 1, x_{-} 2, \ldots, x_{-} n\right]$

y 作为响应向量，比如 $y=\left[y_{-} 1, y_{-} 2, \ldots, y_{-} n\right]$

对于 n 个观测值（在上面的示例中，n=10）。上述数据集的散点图如下所示：

现在，任务是在上面的散点图中找到一条最适合的线，以便我们可以预测任何新特征值的响应。（即数据集中不存在 x 的值）这条线称为回归线。回归线的方程表示为：
$h\left(x_i\right)=\beta_0+\beta_1 x_i$

$h\left(x_i\right)$ 表示第 i 个观测值的预测响应值。
$\beta_0$ 和 $\beta_1$ 是回归系数，分别表示回归线的 y 截距和斜率。

为了创建我们的模型，我们必须“学习”或估计回归系数 $\beta_0$ 和 $\beta_1$ 的值。一旦我们估计了这些系数，我们就可以使用该模型来预测响应！

在本文中，我们将使用最小二乘法原理。
$y_i=\beta_0+\beta_1 x_i+\varepsilon_i=h\left(x_i\right)+\varepsilon_i \Rightarrow \varepsilon_i=y_i-h\left(x_i\right)$
这里， $\varepsilon_i$ 是第 i 个观测值的残差。因此，我们的目标是最小化总残差。我们将平方误差或成本函数 J 定义为：
$J\left(\beta_0, \beta_1\right)=\frac{1}{2 n} \sum_{i=1}^n \varepsilon_i^2$
我们的任务是找到使 $J\left(\beta_0, \beta_1\right)$ 最小的 $\beta_0$ 和 $\beta_1$ 的值！不涉及数学细节，我们在这里展示结果：
$\begin{gathered} \beta_1=\frac{S S_{x y}}{S S_{x: x}} \\ \beta_0=\bar{y}-\beta_1 \bar{x} \end{gathered}$
其中 $S S_{x y}$ 是 y 和 x 的交叉偏差之和：
$S_{x y}=\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=\sum_{i=1}^n y_i x_i-n \bar{x} \bar{y}$
$S S_{x x}$ 是 x 的偏差平方和：
$S_{x x}=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\sum_{i=1}^n x_i^2-n(\bar{x})^2$
我们可以使用Python语言来学习线性回归模型的系数。为了绘制输入数据和最佳拟合线，我们将使用 matplotlib 库。它是最常用的用于绘制图表的 Python 库之一。

import numpy as np
import matplotlib.pyplot as plt

def estimate_coef(x, y):
	# number of observations/points
	n = np.size(x)

	# mean of x and y vector
	m_x = np.mean(x)
	m_y = np.mean(y)

	# calculating cross-deviation and deviation about x
	SS_xy = np.sum(y*x) - n*m_y*m_x
	SS_xx = np.sum(x*x) - n*m_x*m_x

	# calculating regression coefficients
	b_1 = SS_xy / SS_xx
	b_0 = m_y - b_1*m_x

	return (b_0, b_1)

def plot_regression_line(x, y, b):
	# plotting the actual points as scatter plot
	plt.scatter(x, y, color = "m",
			marker = "o", s = 30)

	# predicted response vector
	y_pred = b[0] + b[1]*x

	# plotting the regression line
	plt.plot(x, y_pred, color = "g")

	# putting labels
	plt.xlabel('x')
	plt.ylabel('y')

	# function to show plot
	plt.show()

def main():
	# observations / data
	x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
	y = np.array([1, 3, 2, 5, 7, 8, 8, 9, 10, 12])

	# estimating coefficients
	b = estimate_coef(x, y)
	print("Estimated coefficients:\nb_0 = {} \
		\nb_1 = {}".format(b[0], b[1]))

	# plotting regression line
	plot_regression_line(x, y, b)

if __name__ == "__main__":
	main()

输出：

Estimated coefficients:
b_0 = -0.0586206896552
b_1 = 1.45747126437

多元线性回归

Python简单线性回归建立电视广播报纸销售额模型

Python简单线性回归分析职场经验和薪水关系

TensorFlow.js创建简单线性回归

参阅 - 亚图跨际

亚图跨际

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python简单线性回归算法实现及应用示例

是一种使用单个特征预测响应的方法。它是机器学习爱好者了解的最基本的机器学习模型之一。在线性回归中，我们假设两个变量，即因变量和自变量是线性相关的。因此，我们尝试找到一个线性函数，作为特征或自变量 (x) 的函数，尽可能准确地预测响应值 (y)。xy0113223547586879810912为了一般性，我们定义：x 作为特征向量，比如xx−1x−2x−ny 作为响应向量，比如y。
复制链接

扫一扫

专栏目录