监督学习——多变量线性回归实例:GAD7焦虑症程度预测(python sklearn实现+spss modeler实现)

本文通过Python的sklearn库和SPSS进行多变量线性回归,预测GAD7焦虑症程度。使用教育程度和年薪作为特征变量,发现教育程度增加与焦虑程度轻微降低有关,而年薪增加则显著降低焦虑程度。模型在训练数据上的表现一般,后续将探讨如何优化模型准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据准备:

项目目的:熟悉数据分析项目流程,完成焦虑症数据GAD7数据分析
项目材料:数据表GAD7.xlsx、数据说明GAD7.json

我们选取两个特征变量:受教育程度及年薪。目标变量:焦虑症程度
受教育程度可选选项0-6依次为小学,中学,高中,大学专科,大学本科,硕士研究生,博士研究生。
年薪可选选项0-5依次为0-4万,5-10万,11-20万,21-40万,41-80万,超过80万。
焦虑症程度0-21逐渐增强。

部分数据集: (总22203条数据)
在这里插入图片描述

一、sklearn实现

1.导入包

#导入包
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt

2.导入数据

#变量初始化
X=[]
Y=[]
#导入数据
def get_data(file_name):
    datafile = u'C:\\Users\\HP\\Desktop\\GAD7a.xlsx'#文件所在位置,u为防止路径中有中文名称,此处没有,可以省略
    data = pd.read_excel(datafile,header=0)
    data=np.array(data)
    #数组切片对变量进行赋值
    Y=data[:,2:]
    X=data[:,0:data.shape[1]-1]
    print(X.shape)#打印X的维度
    return X,Y
X,Y=get_data('GAD7a.xlsx')

X的维度:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值