数据入口:学生考试表现影响因素数据集 - Heywhale.com
本数据集提供了关于影响学生考试成绩的多种因素的全面概述。数据集包含了有关学习习惯、出勤率、家长参与、资源获取等方面的信息。
数据说明
字段名 | 说明 |
---|---|
Hours_Studied | 每周学习的小时数 |
Attendance | 出勤率(上课出席的百分比) |
Parental_Involvement | 家长参与程度(低,中,高) |
Access_to_Resources | 教育资源的可用性(低,中,高) |
Extracurricular_Activities | 课外活动参与情况(是,否) |
Sleep_Hours | 每晚平均睡眠时间(小时) |
Previous_Scores | 之前考试的分数 |
Motivation_Level | 学生的动机水平(低,中,高) |
Internet_Access | 互联网接入情况(是,否) |
Tutoring_Sessions | 每月参加辅导课的次数 |
Family_Income | 家庭收入水平(低,中,高) |
Teacher_Quality | 教师质量(低,中,高) |
School_Type | 学校类型(公立,私立) |
Peer_Influence | 同伴对学业表现的影响(积极,中立,消极) |
Physical_Activity | 每周平均体育活动时间(小时) |
Learning_Disabilities | 学习障碍(是,否) |
Parental_Education_Level | 父母的最高学历(高中,本科,研究生) |
Distance_from_Home | 家到学校的距离(近,适中,远) |
Gender | 学生性别(男,女) |
Exam_Score | 期末考试成绩 |
在本文中将分析不同学习习惯、家长参与度、资源获取等对学生考试成绩的影响以及构建机器学习模型预测学生的考试成绩。
一:影响因素分析
import pandas as pd
file_path = 'StudentPerformanceFactors.csv'
df = pd.read_csv(file_path)
df.info()
了解到该数据含有较少的空缺值,可以进行删除:
df = df[(df!= 0).all(axis=1)]
我们的目标是分析这些因素对Exam_Score(考试成绩)的影响。为了进行这个分析,我们可以采用以下步骤:
- 描述性统计分析:首先,我们可以查看这些变量的描述性统计信息,以了解其分布和基本特征。
- 相关性分析:接着,我们可以计算这些变量与考试成绩之间的相关性,以找出哪些因素与考试成绩最相关。
- 可视化分析:为了更直观地展示结果,我们可以创建一些图表来可视化这些关系。
让我们首先进行描述性统计分析。
descriptive_stats = df[['Hours_Studied', 'Attendance', 'Parental_Involvement', 'Access_to_Resources',
'Extracurricular_Activities', 'Sleep_Hours', 'Previous_Scores', 'Motivation_Level',
'Internet_Access', 'Tutoring_Sessions', 'Family_Income', 'Teacher_Quality',
'School_Type', 'Peer_Influence', 'Physical_Activity', 'Learning_Disabilities',
'Parental_Education_Level', 'Distance_from_Home', 'Gender', 'Exam_Score']].describe()
descriptive_stats