线 性 回 归 分 析 篇
一、 线 性 回 归 分 析
(一)、 线 性 分 析
线性分析,是研究因果变量之间的关系,通常利用散点图的形式来描述自变量和因变量之间的关系,发现其是否存在线性相关性,用皮尔逊相关系数 r 的绝对值大小,反应线性相关的程度的分析方法。
(1) 正 线 性 相 关
皮尔逊相关系数 r > 0 时 ,即随着一个变量增加,另一个变量随即增加
(2) 负 线 性 相 关
皮尔逊相关系数 r < 0 时 , 即随着一 个变量增加,另一个变量随即减少
(3) 非 线 性 相 关 与 不 相 关
皮尔逊相关系数 r = 0 时 , 即变量与变量间无联系或非线性关系
(4) 线 性 相 关 性 规 则
| r | 越 接 近 1,那 么 相 关 程 度 越 高, 越 接 近 0 , 相 关 程 度 越 低 。
相关系数r的绝对值 | 反映的相关程度 |
---|---|
| r | = 0 | 无 线 性 相 关 |
0 < | r |< 0.3 | 低 度 线 性 关 系 |
0.3 ≤ | r | ≤ 0.8 | 中 度 线 性 关 系 |
0.8 ≤ | r | ≤ 1 | 高 度 线 性 关 系 |
(二)、 回 归 预 测 分 析 公 式 模 型
回归预测分析,是利用最小二乘法的方式研究有因果关系的变量之间的数量变化关系的分析方法。
( 1 ) 一 元 回 归 预 测 分 析
一元线性回归公式 : Y = a + b *X + ε
a :截 距【intercept】
b : 系 数【coef】
ε : 误 差
Y : 因变量
X : 自变量
( 2 ) 多 重 回 归 预 测 分 析
多元线性回归公式 : Y = a + b * X1 + c * X2 + d * X3
a :截 距【intercept】
b : 系 数【coef】
c : 系 数【coef】
d : 系 数【coef】
Y : 因变量
X : 自变量
二、线 性 回 归 分 析 的 步 骤
(一)、 确 定 自 变 量 与 因 变 量 , 进 行 变 量 相 关 程 度 分 析 。
相 关 模 块 代 码 如 下 :
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
( 1 ) 一 元 变 量 分 析
步 骤:
1) 计算自变量与因变量的相关系数
2) 自变量和因变量的数据以散点图的形式可视化
3) 确定自变量、因变量
代 码 如 下:
# 导入数据
data = pd.read_csv(path)
# 计算自变量与因变量的相关系数
corr = data['自变量'].corr(data['因变量'])
# 描述自变量与因变量数据关系
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.scatter(data['自变量'],data['因变量'])
plt.xlabel('自变量'