数据准备:
项目目的:熟悉数据分析项目流程,完成焦虑症数据GAD7数据分析
项目材料:数据表GAD7.xlsx、数据说明GAD7.json
我们选取两个特征变量:受教育程度及年薪。目标变量:焦虑症程度。
受教育程度可选选项0-6依次为小学,中学,高中,大学专科,大学本科,硕士研究生,博士研究生。
年薪可选选项0-5依次为0-4万,5-10万,11-20万,21-40万,41-80万,超过80万。
焦虑症程度0-21逐渐增强。
部分数据集: (总22203条数据)
一、sklearn实现
1.导入包
#导入包
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
2.导入数据
#变量初始化
X=[]
Y=[]
#导入数据
def get_data(file_name):
datafile = u'C:\\Users\\HP\\Desktop\\GAD7a.xlsx'#文件所在位置,u为防止路径中有中文名称,此处没有,可以省略
data = pd.read_excel(datafile,header=0)
data=np.array(data)
#数组切片对变量进行赋值
Y=data[:,2:]
X=data[:,0:data.shape[1]-1]
print(X.shape)#打印X的维度
return X,Y
X,Y=get_data('GAD7a.xlsx')
X的维度: