说明:如需数据可以直接到文章最后关注获取。
1.数据背景
数据集是机器学习和教育数据分析领域中广泛使用的经典数据集之一。该数据集记录了学生在数学、葡萄牙语和理科(有时也包括其他科目)考试中的表现,以及与学生相关的各种背景信息和社会经济特征。数据集的目标是通过分析学生的个人、家庭、学校和社会环境等因素,预测学生的学习成绩或识别影响学生成绩的关键因素。
数据集最初由 P. Cortez 和 A. Silva 收集。该数据集来源于两所葡萄牙中学的学生,涵盖了两个学期的成绩数据。数据集中包含了多个学生特征和成绩信息,适合用于回归、分类、聚类等任务,尤其是在教育数据分析和学生表现预测方面。
数据集的应用场景-数据集广泛应用于以下几个领域:
1)回归模型评估:该数据集常用于评估回归算法的性能,尤其是预测学生的期末成绩。常见的机器学习算法包括线性回归、决策树回归、随机森林回归、XGBoost 回归等。
2)分类模型评估:如果将期末成绩分为多个类别(如低分、中等分、高分),则可以将该数据集用于分类任务。常见的分类算法包括逻辑回归、支持向量机、随机森林分类、K近邻(KNN)、XGBoost 分类等。
3)特征选择与降维:数据集中包含了多个学生特征和社会经济背景信息,因此该数据集非常适合用于特征选择和降维技术的研究。例如,可以使用主成分分析(PCA)、Lasso 回归、递归特征消除(RFE)等方法来选择最重要的特征,从而提高模型的性能。
4)不平衡数据处理:虽然该数据集的类别分布相对均衡,但在实际应用中,如果某些类别的样本数量较少,仍然可以使用不平衡数据处理技术来优化模型的性能。常见的方法包括过采样(如 SMOTE)、欠采样、加权损失函数等。
5)教育政策制定:该数据集可以帮助教育机构和政策制定者了解哪些因素对学生的学习成绩有显著影响,从而制定更有效的教育政策和干预措施。例如,通过分析学生的家庭背景、课外活动、健康状况等因素,可以识别出需要特别关注的学生群体,并提供相应的支持。
6)个性化教育:该数据集还可以用于个性化教育系统的开发。通过分析学生的表现和背景信息,可以为每个学生推荐最适合的学习资源和教学方法,帮助他们更好地提高学习成绩。
数据集是一个经典的机器学习数据集,广泛应用于回归、分类、特征选择、降维技术等领域。该数据集提供了丰富的学生特征和社会经济背景信息,涵盖性别、年龄、家庭背景、学校环境、课外活动、健康状况等多个方面。尽管数据集存在一些局限性,但它仍然是一个非常有价值的研究工具,尤其适合初学者和研究人员进行实践和探索。
2.数据介绍
数据格式为csv格式。
编号 | 变量名称 | 描述 |
1 | school | 学校名称(GP1 或 MS1) |
2 | sex | 性别(F:女性,M:男性) |
3 | age | 年龄(以岁为单位) |
4 | address | 居住地址类型(U:城市,R:农村) |
5 | famsize | 家庭规模(LE3:小于等于3人,GT3:大于3人) |
6 | Pstatus | 父母同居状况(T:同居,A:分居) |
7 | Medu | 母亲的教育水平(0:未知,1:小学,2:初中,3:高中,4:大学) |
8 | Fedu | 父亲的教育水平(0:未知,1:小学,2:初中,3:高中,4:大学) |
9 | Mjob | 母亲的职业(teacher:教师,health:医疗,services:服务行业,at_home:在家,other:其他) |
10 | Fjob | 父亲的职业(teacher:教师,health:医疗,services:服务行业,at_home:在家,other:其他) |
11 | reason | 选择该学校的原因(home:家庭原因,reputation:学校声誉,course:课程原因,other:其他) |
12 | guardian | 监护人类型(mother:母亲,father:父亲,other:其他) |
13 | traveltime | 从家到学校的时间(1:<15分钟,2:15-30分钟,3:30-60分钟,4:>60分钟) |
14 | studytime | 每周学习时间(1:<2小时,2:2-5小时,3:5-10小时,4:>10小时) |
15 | failures | 过去的不及格次数(n:如果 n > 0,则表示过去有 n 次不及格) |
16 | schoolsup | 是否有额外的学校支持(yes/no) |
17 | famsup | 是否有家庭辅导(yes/no) |
18 | paid | 是否参加过付费课程(yes/no) |
19 | activities | 是否参加课外活动(yes/no) |
20 | nursery | 是否上过幼儿园(yes/no) |
21 | higher | 是否希望继续深造(yes/no) |
22 | internet | 是否有互联网访问(yes/no) |
23 | romantic | 是否有恋爱关系(yes/no) |
24 | famrel | 家庭关系质量(1:非常差,5:非常好) |
25 | freetime | 课余时间(1:非常少,5:非常多) |
26 | goout | 与朋友外出的时间(1:非常少,5:非常多) |
27 | Dalc | 工作日饮酒频率(1:非常少,5:非常多) |
28 | Walc | 周末饮酒频率(1:非常少,5:非常多) |
29 | health | 健康状况(1:非常差,5:非常好) |
30 | absences | 缺勤天数(以天为单位) |
31 | G1 | 第一学期成绩(范围:0-20) |
32 | G2 | 第二学期成绩(范围:0-20) |
33 | G3 | 期末成绩(范围:0-20) |
数据详情如下(部分展示):
3.数据获取
关注下方 回复1011,获取 或者CSDN私信发消息获取。