用字典存储学生成绩查询_数据分析之路(3)——用excel分析学生成绩

本文通过分析学生在线学习数据,探讨了影响学生成绩的因素,包括多重剥夺指数、最高学历、年龄段、在线学习天数和点击次数。数据显示,这些因素与通过率呈正相关,尤其指出年龄增长、学习天数增多和点击次数增加有助于提高通过率。
摘要由CSDN通过智能技术生成

数据分析步骤:

1.提出问题-2.理解数据-3.数据清洗-4.构建模型-5.数据可视化

一、要分析什么,解决什么问题

首先说下数据集,显示的是学生的在线学习情况,包括课程,学生基本信息,成绩等。拿到这样一组数据,首先思考我们要分析哪些问题呢?

1.学生是否掌握了这门知识——分析学习成绩

2.课程设置是否合理——分析学生,导师的评价表以及学习成绩

3.影响学习成绩的因素有哪些——分析学生年龄,最高学历,多重剥夺指数。关于这个多重剥夺指数,一种统计数据,包括工资,学历,居住地,社会福利等数值,所以待会儿也会专门分析这个指数

那么分析这些数据,要解决哪些问题呢?

1.吸引学生选择课程,包括提高课程通过率,提高学生上课兴趣,由此提高入学率

2.借鉴这些成功因素,开设更多的在线课程

二、数据清洗

数据集一共有7张表,这里有些表的内容相互有重复的,因此我们选择3张表格来进行数据清晰。分别是表studentInfo,表studentVle,表assessments

1.选择子集

表studentinfo

数据都很基础,因此以这个表格的数据为主,其他两个表格的数据作为辅助。

在最后一列final_result种有4种状态:Pass通过,Fail未通过,Disdinction优秀,Withdrawn撤回(学生登记但是没有上课),Withdrawn撤回这一栏的数据是我们要去掉的,表明学生没有参与上课,对课程来说是无效的数据

首先筛选“Withdrawn”,共10156条,按F5-定位-定位条件-选择可视单元格-删除-剩余22437条数值

本次数据集选了2年共4个时间段的数据,分别是2013J,2013B,2014J,2014B,这次我们选一个时间段为主2014J,共7436条数据,同时也隐藏了学分的列,得出如下表格

21b940908d1d6b3dec350f665cfaf920.png

2.列名重命名

如上图所示。说明:code_presentation中文名称改为了“开课时间”,由年份+月(B代表二月,J表示10月)组成。

3.删除重复值

共有共有7门课,以AAA,BBB形式呈现,会出现这样两种情况:第一种是一个学生选了多门课;第二种比较复杂,一个学生因为不及格或者中途退出而进行第二次的选课,所以同一个学生可能在一门课种出现2次及以上。导致学生的ID会出现重复。

表格的重复值不太好弄,暂时先不处理这项。

4.缺失值处理

其他列都是7436条,多重剥夺指数为7128条,有缺失值,筛选空白值,有308条,鉴于多重剥夺指数是评价英国贫困地区的指数,且表格中0-100%的区间都有,因此我们这里将它视为非贫困地区的人口,属于正常值,不做处理

5.一致化处理+数据排序

列中似乎只有年龄段的字符串是可以转化为数字的,但是意义不大,其他的没有需要处理的数据。(如果类似于工资的话,可以用公式=LEFT(H3,FIND("-",H3)-1)求最低值,用RIGHT(H3,LE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值