[scikit-learn 机器学习] 2. 简单线性回归

最新推荐文章于 2022-09-15 22:54:03 发布

Michael阿明

最新推荐文章于 2022-09-15 22:54:03 发布

阅读量933

点赞数 27

分类专栏：机器学习文章标签：线性回归 sklearn

本文链接：https://blog.csdn.net/qq_21201267/article/details/106934027

版权

机器学习专栏收录该内容

38 篇文章 22 订阅

订阅专栏

文章目录

- 1. 简单线性回归
- 2. 评价模型

本文为 scikit-learn机器学习（第2版）学习笔记

1. 简单线性回归

import numpy as np
import matplotlib.pyplot as plt

X = np.array([[6],[8],[10],[14],[18]])
y = np.array([7,9,13,17.5,18])
plt.title("pizza diameter vs price")
plt.xlabel('diameter')
plt.ylabel('price')
plt.plot(X,y,'r.') # r表示颜色红

在这里插入图片描述

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X,y)

test_pizza = np.array([[12]])
pred_price = model.predict(test_pizza)
pred_price
# array([13.68103448])

误差 $\sum(y_i-f(x_i))^2$

print("误差平方和：%.2f" % np.mean((model.predict(X)-y)**2))
误差平方和：1.75

方差 $\frac{\sum(x_i-\bar x)^2}{n-1}$

# 方差
x_bar = X.mean() # 11.2
variance = ((X-x_bar)**2).sum()/(len(X)-1)
variance # 23.2

np.var(X, ddof=1) # np内置的方差，ddof为校正选项
###################
ddof : int, optional
        "Delta Degrees of Freedom": the divisor used in the calculation is
        ``N - ddof``, where ``N`` represents the number of elements. By
        default `ddof` is zero.

协方差 $\frac{\sum(x_i-\bar x)(y_i - \bar y)}{n-1}$

# 协方差，两个变量之间的相关性
y_bar = y.mean()
covariance = np.multiply((X-x_bar).transpose(), y-y_bar).sum()/(len(X)-1)
covariance # 22.65

np.cov(X.transpose(), y)

array([[23.2 , 22.65],
       [22.65, 24.3 ]])

假设模型为 $y = a + b x$

$\frac{cov(x,y)}{var(x)} = 22.65/23.2 = 0.98$

$\bar y - b \bar x = 12.9-0.98*11.2=1.92$

模型为 $y = 1.92 + 0.98 x$

2. 评价模型

$R^2 = 1-\frac{\sum(y_i-f(x_i))^2}{\sum(y_i-\bar y)^2}$

X_test = np.array([8,9,11,16,12]).reshape(-1,1)
y_test = [11,8.5,15,18,11]
r_squared = model.score(X_test, y_test)
r_squared # 0.6620052929422553

Michael阿明

关注

27
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
[scikit-learn 机器学习] 2. 简单线性回归

文章目录1. 简单线性回归2. 评价模型1. 简单线性回归import numpy as npimport matplotlib.pyplot as pltX = np.array([[6],[8],[10],[14],[18]])y = np.array([7,9,13,17.5,18])plt.title("pizza diameter vs price")plt.xlabel('diameter')plt.ylabel('price')plt.plot(X,y,'r.') # r表
复制链接

扫一扫