数据分析步骤:
1.提出问题-2.理解数据-3.数据清洗-4.构建模型-5.数据可视化
一、要分析什么,解决什么问题
首先说下数据集,显示的是学生的在线学习情况,包括课程,学生基本信息,成绩等。拿到这样一组数据,首先思考我们要分析哪些问题呢?
1.学生是否掌握了这门知识——分析学习成绩
2.课程设置是否合理——分析学生,导师的评价表以及学习成绩
3.影响学习成绩的因素有哪些——分析学生年龄,最高学历,多重剥夺指数。关于这个多重剥夺指数,一种统计数据,包括工资,学历,居住地,社会福利等数值,所以待会儿也会专门分析这个指数
那么分析这些数据,要解决哪些问题呢?
1.吸引学生选择课程,包括提高课程通过率,提高学生上课兴趣,由此提高入学率
2.借鉴这些成功因素,开设更多的在线课程
二、数据清洗
数据集一共有7张表,这里有些表的内容相互有重复的,因此我们选择3张表格来进行数据清晰。分别是表studentInfo,表studentVle,表assessments
1.选择子集
表studentinfo
数据都很基础,因此以这个表格的数据为主,其他两个表格的数据作为辅助。
在最后一列final_result种有4种状态:Pass通过,Fail未通过,Disdinction优秀,Withdrawn撤回(学生登记但是没有上课),Withdrawn撤回这一栏的数据是我们要去掉的,表明学生没有参与上课,对课程来说是无效的数据
首先筛选“Withdrawn”,共10156条,按F5-定位-定位条件-选择可视单元格-删除-剩余22437条数值
本次数据集选了2年共4个时间段的数据,分别是2013J,2013B,2014J,2014B,这次我们选一个时间段为主2014J,共7436条数据,同时也隐藏了学分的列,得出如下表格
2.列名重命名
如上图所示。说明:code_presentation中文名称改为了“开课时间”,由年份+月(B代表二月,J表示10月)组成。
3.删除重复值
共有共有7门课,以AAA,BBB形式呈现,会出现这样两种情况:第一种是一个学生选了多门课;第二种比较复杂,一个学生因为不及格或者中途退出而进行第二次的选课,所以同一个学生可能在一门课种出现2次及以上。导致学生的ID会出现重复。
表格的重复值不太好弄,暂时先不处理这项。
4.缺失值处理
其他列都是7436条,多重剥夺指数为7128条,有缺失值,筛选空白值,有308条,鉴于多重剥夺指数是评价英国贫困地区的指数,且表格中0-100%的区间都有,因此我们这里将它视为非贫困地区的人口,属于正常值,不做处理
5.一致化处理+数据排序
列中似乎只有年龄段的字符串是可以转化为数字的,但是意义不大,其他的没有需要处理的数据。(如果类似于工资的话,可以用公式=LEFT(H3,FIND("-",H3)-1)求最低值,用RIGHT(H3,LE