监督学习——多变量线性回归实例：GAD7焦虑症程度预测（python sklearn实现+spss modeler实现）

Marinaaaaa

于 2019-08-12 00:22:59 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_25015749/article/details/99137599

版权

本文通过Python的sklearn库和SPSS进行多变量线性回归，预测GAD7焦虑症程度。使用教育程度和年薪作为特征变量，发现教育程度增加与焦虑程度轻微降低有关，而年薪增加则显著降低焦虑程度。模型在训练数据上的表现一般，后续将探讨如何优化模型准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据准备：

项目目的：熟悉数据分析项目流程，完成焦虑症数据GAD7数据分析
项目材料：数据表GAD7.xlsx、数据说明GAD7.json

我们选取两个特征变量：受教育程度及年薪。目标变量：焦虑症程度。
受教育程度可选选项0-6依次为小学，中学，高中，大学专科，大学本科，硕士研究生，博士研究生。
年薪可选选项0-5依次为0-4万，5-10万，11-20万，21-40万，41-80万，超过80万。
焦虑症程度0-21逐渐增强。

部分数据集：（总22203条数据）
在这里插入图片描述

一、sklearn实现

1.导入包

#导入包
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt

2.导入数据

#变量初始化
X=[]
Y=[]
#导入数据
def get_data(file_name):
    datafile = u'C:\\Users\\HP\\Desktop\\GAD7a.xlsx'#文件所在位置，u为防止路径中有中文名称，此处没有，可以省略
    data = pd.read_excel(datafile,header=0)
    data=np.array(data)
    #数组切片对变量进行赋值
    Y=data[:,2:]
    X=data[:,0:data.shape[1]-1]
    print(X.shape)#打印X的维度
    return X,Y
X,Y=get_data('GAD7a.xlsx')

X的维度: