一、使用excel中数据分析功能做线性回归练习
1、添加数据分析工具
打开Excel,选择‘插入’—‘我的加载项’—‘管理其他加载项’:
选择‘Excel加载项’—‘转到’:
选择工具库:
此时出现入下图所示的即为成功:
2、使用Excel完成线性回归分析
点击数据—数据分析—回归并确定:
选择x,y的取值范围,选择输出区域,选择线性拟合图并确认。
此时选择20组数据进行回归分析
选择200组数据分析:
二、使用jupyter编程(不借助第三方库)
1、进入jupyter界面上传数据文件并创建新项目
先将数据文件进行上传:
创建新项目:
2、取20组数据进行分析
最小二乘法公式:
代码如下:
import pandas as pd
import numpy as np
import math
# 准备数据
A = pd.read_excel('weights_heights(身高-体重数据集).xls','weights_heights')
# 读取20行数据
A1=A.head(20)
x=A1["Height"]
y=A1["Weight"]
# 平均值
x_mean = np.mean(x)
y_mean = np.mean(y)
#x(或y)列的总数(即n)
xsize = x.size
zi=((x-x_mean)*(y-y_mean)).sum()
mu=((x-x_mean)*(x-x_mean)).sum()
n=((y-y_mean)*(y-y_mean)).sum()
# 参数a b
a = zi / mu
b = y_mean - a * x_mean
#相关系数R的平方
m=((zi/math.sqrt(mu*n))**2)
# 这里对参数保留4位有效数字
a = np.around(a,decimals=4)
b = np.around(b,decimals=4)
m = np.around(m,decimals=4)
print(f'回归线方程:y = {a}x +({b})')
print(f'相关回归系数为{m}')
运行结果如下:
取200组数据进行分析:
对200组数据进行分析时,只需要将以下代码进行修改即可:
取2000组数据进行分析:
对2000组数据进行分析时,只需要将以下代码进行修改即可:
三、用jupyter编程(借助sklearn)
1、sklearn简介
Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库 。它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。
2、取20组数据进行分析
代码如下:
import numpy as np
import pandas as pd
from contextlib import contextmanager as _contextmanager
import matplotlib.pyplot as plt
import math
import logging
from numpy import array
from sklearn.linear_model import LinearRegression
# 读取数据
A = pd.read_excel('weights_heights(身高-体重数据集).xls','weights_heights')
A.shape
# 读取20行数据
x=array(A[['Weight']].values[:20,:])
y=array(A[['Height']].values[:20,:])
# 调用线性回归函数
model=LinearRegression(fit_intercept=True,normalize=True)
model.fit(x,y)
# 输出斜率
print(model.coef_)
# 输出截距
print(model.intercept_)
#输出线性回归表达式
a=model.intercept_
b=model.coef_
y_hat=b*x+a
print("线性回归方程为:y=",b,"x",a)
#计算R的平方
R2=model.score(x,y)
print('相关回归系数为',R2)
#绘图输出
plt.figure()
plt.scatter(x,y)#散点图绘制原始数据
plt.plot(x,y_hat,color='coral')
plt.show()
结果如下:
取200组数据进行分析:
对200组数据进行分析时,只需要将以下代码进行修改即可:
结果如下:
取2000组数据进行分析:
与上述代码修改同理,结果如下:
三.总结
本次实验作业通过excel和jupyter了解并编译使用了最小二乘法,并且借助sklearn来进行了线性回归方程的分析与了解,通过这次实验收益匪浅