python数据分析与挖掘实战第十三章总结

最新推荐文章于 2023-12-22 11:31:54 发布

一蓑烟雨晴

最新推荐文章于 2023-12-22 11:31:54 发布

阅读量1.4k

点赞数 1

分类专栏： python数学分析与挖掘实战

本文链接：https://blog.csdn.net/qq_44941689/article/details/113660178

版权

python数学分析与挖掘实战专栏收录该内容

13 篇文章 5 订阅

订阅专栏

该博客分享了使用Python进行数据分析的基本操作，包括计算统计数据、Pearson相关系数，运用LASSO回归筛选变量，并通过灰色预测GM(1,1)进行未来值预测。内容涵盖了numpy、pandas和灰色预测库的使用。

摘要由CSDN通过智能技术生成

本博客旨在帮助学生自己巩固所学，若能帮得上他人也是荣幸之至
首先以下是借鉴过的几个github库，非常感谢：
https://github.com/apachecn/python_data_analysis_and_mining_action
https://github.com/keefecn/python_practice_of_data_analysis_and_mining
https://github.com/Stormzudi/Python-Data-Mining
https://github.com/Echo9573/DataAnalysisbyPython

1 计算最小值、最大值、均值、标准差

#-*- coding: utf-8 -*-
import numpy as np
import pandas as pd
inputfile = '../data/data1.csv' #输入的数据文件
data = pd.read_csv(inputfile) #读取数据
r = [data.min(), data.max(), data.mean(), data.std()] #依次计算最小值、最大值、均值、标准差
r = pd.DataFrame(r, index = ['Min', 'Max', 'Mean', 'STD']).T
np.round(r, 2) #保留两位小数
print(r)

2 计算person相关系数

#-*- coding: utf-8 -*-
import numpy as np
import pandas as pd
inputfile = '../data/data1.csv' #输入的数据文件
data = pd.read_csv(inputfile) #读取数据
print(np.round(data.corr(method = 'pearson'), 2)) #计算相关系数矩阵，保留两位小数

3 LASSO回归筛选拟合变量

#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '../data/data1.csv' #输入的数据文件
data = pd.read_csv(inputfile) #读取数据
import numpy as np
# #导入AdaptiveLasso算法，要在较新的Scikit-Learn才有。
# from sklearn.linear_model import AdaptiveLasso
# model = AdaptiveLasso(gamma=1)
# model.fit(data.iloc[:,0:13],data['y'])
# model.coef_ #各个特征的系数

from sklearn.linear_model import Lasso# AdaptiveLasso找不到
# LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整。 因此，不论目标因变量是连续的，还是二元或者多元离散的，
#都可以用LASSO回归建模然后预测。 这里的变量筛选是指不把所有的变量都放入模型中进行拟合，而是有选择的把变量放入模型从而得到更好的性能参数。
model = Lasso(alpha = 0.1)
model.fit(data.iloc[:,:13], data['y']) # data.iloc[:, 0:13]
print(model.coef_) # 各个特征权重weight
print(model.intercept_) # 输出偏置bias


lasso = Lasso(1000)  #调用Lasso()函数，设置λ的值为1000
lasso.fit(data.iloc[:,0:13],data['y'])
print('相关系数为：',np.round(lasso.coef_,5))  #输出结果，保留五位小数

## 计算相关系数非零的个数
print('相关系数非零个数为：',np.sum(lasso.coef_ != 0))
print(lasso.coef_.shape)
mask = lasso.coef_ != 0  #返回一个相关系数是否为零的布尔数组
print('相关系数是否为零：',mask)

outputfile = '../tmp/new_reg_data.csv'  #输出的数据文件
new_reg_data = data.iloc[:,0:13].iloc[:, mask]  #返回相关系数非零的数据
new_reg_data.to_csv(outputfile)  #存储数据
print('输出数据的维度为：',new_reg_data.shape)  #查看输出数据的维度

[-1.88512448e-04 -2.68436321e-01  4.45960813e-01 -3.24264041e-02
  7.25657667e-02  4.52109484e-04  2.28596158e-01 -4.51460904e-02
 -3.10503208e+00  6.19423002e-01  4.80398130e+00 -9.79664624e+01
 -3.86933684e-02]
-2650.9958943685133
相关系数为： [-1.8000e-04 -0.0000e+00  1.2414e-01 -1.0310e-02  6.5400e-02  1.2000e-04
  3.1741e-01  3.4900e-02 -0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00
 -4.0300e-02]
相关系数非零个数为： 8
(13,)
相关系数是否为零： [ True False  True  True  True  True  True  True False False False False
  True]
输出数据的维度为： (20, 8)

4 灰色预测GM(1,1)

#-*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from GM11 import GM11 #引入自己编写的灰色预测函数

inputfile = '../data/data1.csv' #输入的数据文件
outputfile = '../tmp/data1_GM11.xls' #灰色预测后保存的路径
data = pd.read_csv(inputfile) #读取数据
data.index = range(1994, 2014)
#print(data)


data.loc[2014] = None
data.loc[2015] = None

l = ['x1', 'x2', 'x3', 'x4', 'x5', 'x7']


for i in l:
  f = GM11(data[i][[i for i in range(1994, 2014)]].values)[0]
  data[i][2014] = f(len(data)-1) #2014年预测结果
  data[i][2015] = f(len(data)) #2015年预测结果
  data[i] = data[i].round(2) #保留两位小数

print(data[l])

data[l+['y']].to_excel(outputfile) #结果输出

#-*- coding: utf-8 -*-

def GM11(x0): #自定义灰色预测函数
  import numpy as np
  x1 = x0.cumsum() #1-AGO序列
  z1 = (x1[:len(x1)-1] + x1[1:])/2.0 #紧邻均值（MEAN）生成序列
  z1 = z1.reshape((len(z1),1))
  B = np.append(-z1, np.ones_like(z1), axis = 1)
  Yn = x0[1:].reshape((len(x0)-1, 1))
  [[a],[b]] = np.dot(np.dot(np.linalg.inv(np.dot(B.T, B)), B.T), Yn) #计算参数
  f = lambda k: (x0[0]-b/a)*np.exp(-a*(k-1))-(x0[0]-b/a)*np.exp(-a*(k-2)) #还原值
  delta = np.abs(x0 - np.array([f(i) for i in range(1,len(x0)+1)]))
  C = delta.std()/x0.std()
  P = 1.0*(np.abs(delta - delta.mean()) < 0.6745*x0.std()).sum()/len(x0)
  return f, a, b, x0[0], C, P #返回灰色预测函数、a、b、首项、方差比、小残差概率

一蓑烟雨晴

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
python数据分析与挖掘实战第十三章总结

本博客旨在帮助学生自己巩固所学，若能帮得上他人也是荣幸之至首先以下是借鉴过的几个github库，非常感谢：https://github.com/apachecn/python_data_analysis_and_mining_actionhttps://github.com/keefecn/python_practice_of_data_analysis_and_mininghttps://github.com/Stormzudi/Python-Data-Mininghttps://github.
复制链接

扫一扫

专栏目录