1.项目背景
学生的考试成绩受到多种复杂因素的共同影响,其中包括学习习惯、出勤率、家长参与、学校资源等多个方面。这些因素在不同的情境下对学生的学业表现产生直接或间接的作用,而理解这些因素的交互关系对于提升学生成绩至关重要,通过深入分析这些影响因素,教育工作者可以更有效地识别出关键的干预点,从而设计出有针对性的教育策略,同时,政策制定者也可以依据数据驱动的证据,为优化教育资源分配和改进教学质量提供科学依据。
本研究旨在综合运用多种数据分析方法,包括可视化分析、相关性分析和机器学习模型,全面探讨影响学生期末成绩的潜在因素,为了更精确地评估每个特征的重要性,还引入了 SHAP 解释模型,深入研究了模型中各因素对预测结果的贡献。这一系统化的分析框架不仅有助于揭示影响学生学业表现的关键因素,也为今后的教育研究提供了新的视角和方法。
2.数据说明
字段名 | 说明 |
---|---|
Hours_Studied | 每周学习的小时数 |
Attendance | 出勤率(上课出席的百分比) |
Parental_Involvement | 家长参与程度(低,中,高) |
Access_to_Resources | 教育资源的可用性(低,中,高) |
Extracurricular_Activities | 课外活动参与情况(是,否) |
Sleep_Hours | 每晚平均睡眠时间(小时) |
Previous_Scores | 之前考试的分数 |
Motivation_Level | 学生的动机水平(低,中,高) |
Internet_Access | 互联网接触情况(是,否) |
Tutoring_Sessions | 每月参加辅导课的次数 |
Family_Income | 家庭收入水平(低,中,高) |
Teacher_Quality | 教师质量(低,中,高) |
School_Type | 学校类型(公立,私立) |
Peer_Influence | 同伴对学业表现的影响(积极,中立,消极) |
Physical_Activity | 每周平均体育活动时间(小时) |
Learning_Disabilities | 学习障碍(是,否) |
Parental_Education_Level | 父母的最高学历(高中,本科,研究生) |
Distance_from_Home | 家到学校的距离(近,适中,远) |
Gender | 学生性别(男,女) |
Exam_Score | 期末考试成绩 |
3.Python库导入及数据读取
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import spearmanr,pointbiserialr
from sklearn.model_selection import train_test_split,RandomizedSearchCV
from sklearn.metrics import mean_squared_error, r2_score,mean_absolute_error
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklear