在线教育平台edx运营情况数据分析报告——SQL&Tableau

一、分析背景

edx是麻省理工大学和哈佛大学于2012年4月联手创建的大规模开放在线课堂平台。它是一个免费给大众提供大学教育水平的在线课堂。此外,麻省理工大学和哈佛大学将使用此共享平台,进行教学法研究,促进现代技术在教学手段方面的应用,同时也加强学生们在线对课程效果的评价。从2012年到2016年,edx经过四年的发展,无论是参与院校、在线课程还是参与者都达到了极为可观的规模。

数据来源:

2012年edX平台上线后4年间290个在线课程和450万参与者的数据-数据集-阿里云天池​tianchi.aliyun.com/dataset/dataDetail?dataId=6762正在上传…重新上传取消

其中包含1个csv数据:appendix.csv

二、分析目的

edx平台2012年到2016年上线4年后,通过分析平台提供课程的机构以及课程信息,分析edx平台当前的用户分布,教师配比、课程播放情况以及平台学生画像,并给出促进平台发展的有效建议。

三、分析思路及问题

下图为edX平台用户使用流程:

注:旁听是可以正常听课,并且看到部分作业,但是无法提交作业,也无法参加考试的。而付费用户可以享受课程当中所有的资料,课程通过之后,会获得这门课对应的证书。

具体流程来源:

Sina Visitor System​weibo.com/p/1001603958422008631773/home

结合现有数据集,用多维度拆解法,从学生、课程和讲师三个维度进行拆解,整体分析思路如下:


四、分析过程及结果

1.结合现有数据,用多维度拆解法,从学生、课程和讲师三个维度进行拆解,并提出以下问题:

/

一、学生

1.学生数量随时间变化情况

2.性别

  • 不同性别学生数量随时间变化情况
  • 不同性别学生数量
  • 不同机构学生男女比例

3.年龄

  • 用户学士学历或以上人数随时间变化情况
  • 用户学士学历以上百分比随时间变化情况
  • 用户学士学历或以上学生数量
  • 不同机构用户学士学历或以上学生数量
  • 用户学士学历或以上喜欢的主题

4.学历

  • 用户年龄中位数分布直方图
  • 用户年龄中位数分布箱线图
  • 不同年龄阶段课程数量

二、课程:

1.平台各环节转化情况

  • 整体转化率
  • 机构及各主题转化率

2.平台认证情况

  • 拿到认证小时数的中位数
  • 拿到认证时的课程进行程度分布箱线图
  • 不同机构拿到认证时的课程进行程度分布箱线图
  • 不同主题拿到认证时的课程进行程度分布箱线图
  • 各机构不同主题拿到认证时的课程进行程度分布箱线图

3.热播课程

  • 热播课程top5
  • Harvard热播课程top5
  • MIT热播课程top5

4.课程持续时间

  • 整体课程持续时间
  • 各主题课程持续时间
  • 各机构课程持续时间
  • 不同机构各主题课程持续时间

5.粘贴到论坛人数百分比

  • 粘贴到论坛人数的百分比分布箱线图
  • 不同机构粘贴到论坛人数的百分比分布箱线图
  • 不同主题粘贴到论坛人数的百分比分布箱线图
  • 不同主题各机构粘贴到论坛人数百分比分布箱线图

三、讲师:

  • 不同讲师学生数量top10
  • 不同讲师课程数量top10
  • 不同讲师课程平均学生数量top10
  • 不同机构讲师人数
  • 不同主题讲师人数
  • 不同主题各机构讲师人数

/


2.理解数据

appendix表字段及含义


3.数据清洗(SQL)

将csv数据导入Navicat

原始数据:

数据清洗步骤:

  • 选择子集

数据集的每个字段都有用,因此不需要选择子集

  • 列名重命名

设计表,对字段名称及类型进行修改

这里先将上线日期的数据类型设置为varchar,后面再用sql语句进行修改。

  • 删除重复值

  • 缺失值处理

查找到课程编号ID为CS50x课程的讲师为null,由于该课程有168335名学生,不能删除,将该课程的讲师填充为‘未知’。

查询结果:

  • 一致化处理

由于上线日期的数据类型是varchar,且为月/日/年格式,因此将该字段转换成‘年/月/日’的日期格式。

由于一门课可能有多个讲师,因此将讲师字段分列,仅保留该门课的首位讲师。

  • 异常值处理

由于本数据集是2012年至2016年的数据,因此该时段以外的数据均是异常数据。

可以发现数据仍为289条没有变化,MySQL中的数据清洗部分到此完成,将数据重命名为appendix(清洗数据)。将Tableau与MySQL连接,选择数据库edx-表appendix(清洗数据)进行数据的二次清洗。

清洗后部分数据:


4.数据分析(Tableau)

一、学生

1.学生数量随时间变化情况

因为数据范围是从2012年9月5日到2016年8月1日,因为2012年和2016年的数据不完整,在分析学生数量变化趋势时主要观察2013、2014及2015年的数据。

从图中可以看出,edX平台整体的学生人数是逐年增加的,但是2015年的学生数量相较2014年却有所下降,为什么会出现这种情况?根据现有数据提出假设:

假设1:新上线了大量主题不受欢迎的课程

从图中可以看出课程主题Computer Science是最受学生欢迎的,但是相较2014年,该主题课程的增加数目和课程占比都是最少的,因此假设1成立。

假设2:平台宣传效果下降

从图中可以看出,相比2014年,虽然学生人数降低了,但是粘贴到论坛人数%增加了,因此不能据此推断平台宣传效果下降,假设2不成立。

假设3:课程/讲师没有吸引力

图中,颜色越深,正方形面积越大的代表学生数量越多。从图中可以看出2014年课程编号为CS50x、由讲师David Malan讲授的课程Introduction to Computer Science是最受欢迎(学生数量最多)的,而2015年并没有开这门课程,因此假设3成立。

2.性别

  • 不同性别学生数量随时间变化情况
  • 不同性别学生数量
  • 不同机构学生男女比例

不同性别学生人数变化符合整体学生数量变化趋势,其中男性学生的数量为3182374,是女性学生数量1256728的2.53倍。Harvard大学的男性学生数量是女性学生数量的1.83倍,MIT大学的男性学生数量是女性学生数量的3.56倍,相比之下MIT大学的学生性别差异更大。为什么会出现这种情况?

假设1:MIT大学女生感兴趣的主题课程数量较少

不同性别喜欢的主题/课程top

男性更喜欢课程主题’Computer Science‘、‘Science, Technology, Engineering, and Mathematics‘;女性更喜欢课程主题’Humanities, History, Design, Religion, and Education‘、’Government, Health, and Social Science‘。

由于课程名称过长,这里展示了男性与女性喜欢的课程IDtop5,具体课程名称如下:

两所大学不同主题课程占总课程数量比例

MIT大学各主题课程数量排名如下:

Science, Technology, Engineering, and Mathematics>Government, Health, and Social Science>Computer Science>Humanities, History, Design, Religion, and Education

Harvard大学各主题课程数量排名如下:

Humanities, History, Design, Religion, and Education>Government, Health, and Social Science>Science, Technology, Engineering, and Mathematics>Computer Science

女性更喜欢的课程主题Humanities, History, Design, Religion, and Education、Government, Health, and Social Science在MIT大学占比较少,假设1成立。

假设2:MIT大学女生喜欢的讲师更少

不同性别的学生喜欢的讲师及其所属机构:

男生喜欢的讲师top5分别为:David Malan、未知、Eric Grimson、Dimitris Bertsimas、Anant Agarwal,其中David Malan、未知2位属于Harvard,Eric Grimson、Dimitris Bertsimas、Anant Agarwal3位属于MIT。

女生喜欢的讲师top5分别为:David Malan、Michael Brenner、未知、Michael Sandel、Eric Grimson,其中David Malan、Michael Brenner、未知、Michael Sandel4位讲师属于Harvard,Eric Grimson属于MIT,所以假设2成立。

假设3:MIT大学女生喜欢的主题的课程总时长更短

各机构不同主题课程总时长平均值

MIT大学的Computer Science主题的课程总时长平均值为245.8h,Science, Technology, Engineering, and Mathematics主题的课程总时长平均值为84.8h,Government, Health, and Social Science主题的课程总时长平均值为156.1h,Humanities, History, Design, Religion, and Education主题的课程总时长平均值为62.6h

Harvard大学的Computer Science主题的课程总时长平均值为514.7h,Science, Technology, Engineering, and Mathematics主题的课程总时长平均值为113.8h,Government, Health, and Social Science主题的课程总时长平均值为57.1h,Humanities, History, Design, Religion, and Education主题的课程总时长平均值为28.1h

在主题Government, Health, and Social Science以及主题Humanities, History, Design, Religion, and Education中,MIT大学的课程总时长平均值都要高于Harvard大学的课程总时长平均值,接下来分析课程总时长与学生数量间的关系。

课程总时长与学生数量间的关系

因为R^2<0.5,所以课程总时长与学生数量为弱相关关系,所以假设3不成立。

假设4:MIT大学女生喜欢的主题中提供认证的课程占比较少

学生对课程提供认证情况的偏好

不提供认证课程人数的平均值为4825,提供认证课程人数的平均值为8435。整体上,学生更倾向于选择学习提供认证的课程。

不同大学的课程提供认证情况

MIT大学中女生喜欢的主题Government, Health, and Social Science以及主题Humanities, History, Design, Religion, and Education中,提供认证的课程数量占比都要小于(即不提供认证的课程数量占比都要大于)Harvard大学,假设4成立。

3.学历

  • 用户学士学历或以上人数随时间变化情况
  • 用户学士学历以上百分比随时间变化箱线图
  • 用户学士学历或以上学生数量
  • 不同机构用户学士学历或以上学生数量

用户学士学历或以上人数变化情况符合整体学生数量的变化趋势,用户学士学历或以上百分比随时间的增加一直稳定保持在60%以上的水平。

学生中用户学士学历或以上的数量为2977K,占学生总人数的67.1%。Harvard大学学生数量为2101K,用户学士学历或以上的数量为1392K,占Harvard大学学生总人数的66.3%,MIT大学学生数量为2338K,用户学士学历或以上的数量为1585K,占MIT大学学生总人数的67.8%。两个大学学生学士学历或以上的比例都在60%以上,说明高学历的人更有提升自身技能的需求,同时也说明机构的课程门槛较高,需要更好的学习基础。

用户学士学历或以上喜欢的主题

主题Humanities, History, Design, Religion, and Education用户学士学历或以上百分比的平均值为74.67%,主题Government, Health, and Social Science用户学士学历或以上百分比的平均值为83.51%,主题Science, Technology, Engineering, and Mathematics用户学士学历或以上百分比的平均值为63.58%,主题Computer Science用户学士学历或以上百分比的平均值为60.90%。整体上,主题Government, Health, and Social Science用户学士学历或以上百分比最高,说明该主题课程对学生的学习基础要求更高同时研究或从事相关工作的学生提升自身技能的需求也更大,主题Computer Science用户学士学历或以上百分比最低,但仍然在60%以上。

4.年龄

  • 用户年龄中位数分布直方图
  • 用户年龄中位数分布箱线图

用户年龄中位数主要分布在25-30岁,用户年龄中位数最小的为22岁,用户年龄中位数最大的为53岁,由中心极限定理可知平台的整体用户年龄中位数为29岁左右。

用户年龄中位数分布箱线图的上限为38、上四分位数为31、中位数为29、下四分位数为26、下限为22、IQR为5。其中39、40、53属于异常值。用户年龄中位数为异常值的课程Harvard大学有6门,MIT大学有1门,用户年龄中位数为异常值的课程主题为Government, Health, and Social Science和Humanities, History, Design, Religion, and Education。为什么会出现这种情况?

假设1:Harvard大学的用户年龄中位数更高

不同大学用户年龄中位数分布情况

Harvard大学的用户年龄中位数分布较为分散,中位数为31,MIT大学的用户年龄中位数分布较为集中,中位数为27,相比而言,Harvard大学整体用户年龄高于MIT大学,假设1成立。

假设1:Government, Health, and Social Science和Humanities, History, Design, Religion, and Education主题的学生用户年龄中位数更高

不同主题用户年龄中位数分布情况

Government, Health, and Social Science主题的用户年龄中位数分布较为集中,中位数为30;Humanities, History, Design, Religion, and Education主题的学生用户年龄中位数分布较为分散,中位数为32.5;Science, Technology, Engineering, and Mathematics主题的用户年龄中位数分布较为集中,中位数为26;Computer Science主题的用户年龄中位数分布较为集中,中位数为27。相比而言,Government, Health, and Social Science和Humanities, History, Design, Religion, and Education主题的学生用户年龄更高,假设1成立。

  • 不同年龄阶段课程数量

总共289门课程,各年龄阶段课程数目平均值为14.45,最小值为1,最大值为33,课程数量随年龄变化呈正态分布,其中24-33岁的课程数量最多,占总课程数目的80.28%。


二、课程

1.平台各环节转化情况

  • 整体转化情况

理想的状态是,当学生有明确的学习需求时,首先会进行注册,随后根据课程大类或者关键词搜索课程,选择直接学习还是旁听,接着点击感兴趣的课程的链接进行视频观看,之后进行课后小考、期中考试、期末考试,最终成绩合格获得认证,课程学习结束。但通常情况下,在每一个环节学生都可能流失。目前比较通用的方法是AARRR模型,还有改进版的AARRR模型,即RARRA模型,都是用来研究用户留存与转化情况的。

注:旁听是可以正常听课,并且看到部分作业,但是无法提交作业,也无法参加考试的。而付费用户可以享受课程当中所有的资料,课程通过之后,会获得这门课对应的证书。

学生数-播放视频人数-分数高于0人数-拿到认证人数

由于目前学生选择要证书后是否参加了考试不得而知,所以假设‘分数高于0的学生’就是选择‘要证书’的学生。

平台整体第一环节的转化率为65.45%,第二环节转化率为25.41%,第三环节转化率为28.02%。相比之下第一环节转化率尚可,第二、三环节的转化率过低。即注册的学生中有65.45%注册了课程,观看了视频,观看视频的学生中有25.41%选择要证书而成为付费用户并参加了考试,参加考试的学生中有28.02%成绩达到要求拿到了课程认证。

针对现状提出问题:为什么第二环节是否要证书转化率低?

假设1:证书认证费过高

认证费:

身份认证的费用每门课程约在30美元至100美元之间,经济困难的学习者可以申请助学金

学生年龄及学历分布:

由之前的用户年龄分析可知,平台的学生平均年龄在29岁,且60%以上的用户学历为学士学历以上。

综上,用户完全有能力支付认证费用,假设1不成立。

假设2:证书社会公信力低

edX平台的 MOOC认证证书分为三类,分别为荣誉代码证书,验证证书以及 XSeries 证书。荣誉证书是免费获取的,荣誉证书的认证表明学习者已经成功地完成了一个课程,但是这种证书不会核对你的身份,因此存在信度较低的缺点。验证证书同样证明学习者已经成功地完成了MOOC 的课程,但它不同于荣誉证书的地方在于,学习者需要在课程开始时,通过摄像头提供自身的照片和身份证用来确认身份,而在课程进行中不定期的会要求学习者重新提供自身照片和身份证来进行验证。同时验证证书课程需要学习者支付少量的费用,不同的课程对于证书的收费不一样。费用在课程开始时就会明确说明,同时是以捐款的方式支付。这些费用一部分用于证书验证过程,另一部分则用于支付和改善 MOOC 课程。Xseries 证书则是需要学习者完成具讲师:有统一主题的一系列课程之后才会颁发的证书,证明学习者完成了一系列课程的学习。由于 MOOC 是通过网络学习,学习并不产生于学习者和教授之间面对面的授课,因此对于课程学习者是否独立完成课程,独立完成测试等情况,教授并不知情[1]

综上,edX平台存在考试过程不可控,课程学习过程中学习者身份无法确定,项目是否独立完成无法保证等问题,证书的社会公信力存疑,假设2成立。

假设3:学生多为有稳定工作的高龄学生,找工作经验重要性远大于证书

由之前的用户年龄分析可知,平台的学生平均年龄在29岁,且60%以上的用户学历为学士学历以上。

综上,学生多为有稳定工作的高龄人士,找工作经验重要性远大于证书,所以假设3成立。

  • 机构及各主题转化率

Harvard大学的第二环节转化率为22.67%低于MIT大学,MIT大学第三环节转化率为23.74%低于Harvard大学;

主题Computer Science第二、三环节转化率分别为23.89%、21.72%远低于其他主题。

2.平台认证情况

  • 拿到认证小时数的中位数
  • 拿到认证时的课程进行程度分布箱线图
  • 不同机构拿到认证时的课程进行程度分布箱线图
  • 不同主题拿到认证时的课程进行程度分布箱线图
  • 各机构不同主题拿到认证时的课程进行程度分布箱线图

学生拿到认证小时数的平均值为27.3h;

平台平均是在课程进行到79%时,学生拿到认证;

MIT大学拿到认证课程进行的程度平均为85%,Harvard大学拿到认证课程进行的程度平均为65%,相比较而言,MIT大学的课程拿到认证的难度要大于Harvard。

整体来讲主题Computer Science学生拿到认证时课程进行的程度平均为33%是主题中拿到认证最快的,课程主题Science, Technology, Engineering, and Mathematics学生拿到认证时课程进行的程度平均为151%,是主题中拿到认证最慢的。

3.热播课程

  • 热播课程top5
  • Harvard热播课程top5
  • MIT热播课程top5

热播课程top5分别为:Introduction to Computer Science、Introduction to Computer Science and Programming、Introduction to Computer Science (2016)、Introduction to Computer Science and Programming Using Python、Justice

Harvard的热播课程top5分别为:Introduction to Computer Science、Introduction to Computer Science (2016)、Justice、Science and Cooking: From Haute Cuisine to Soft Matter Science、Health in Numbers: Quantitative Methods in Clinical and Public Health Research

MIT的热播课程top5分别为:Circuits and Electronics、Entrepreneurship 101: Who Is Your Customer?、Introduction to Computer Science and Programming、Introduction to Computer Science and Programming Using Python、The Analytics Edge

4.课程持续时间

  • 整体课程持续时间
  • 各主题课程持续时间
  • 各机构课程持续时间
  • 不同机构各主题课程持续时间

约77%的课程持续时间较长,在3-4个周期;

不同机构比较而言MIT的课程整体上持续时间要长于Harvard;

不同主题比较而言主题Humanities, History, Design, Religion, and Education持续时间最长,其次为主题Science, Technology, Engineering, and Mathematics,其次为主题Government, Health, and Social Science,主题Computer Science持续时间最短。

相同主题下各机构的持续时间比较:

Humanities, History, Design, Religion, and Education主题课程持续时间Harvard长于MIT;

MIT的Science, Technology, Engineering, and Mathematics主题课程持续时间长于Harvard;

两所机构Government, Health, and Social Science主题课程时长接近;

MIT的Computer Science主题课程持续时间长于Harvard;

5.粘贴到论坛人数%

  • 粘贴到论坛人数的百分比分布箱线图
  • 不同机构粘贴到论坛人数的百分比分布箱线图
  • 不同主题粘贴到论坛人数的百分比分布箱线图
  • 不同主题各机构粘贴到论坛人数百分比分布箱线图

平台整体粘贴到论坛人数百分比平均值为7.3%;

不同机构比较而言Harvard的粘贴到论坛人数百分比平均值为11%要高于MIT的6.01%;

不同主题比较而言主题Humanities, History, Design, Religion, and Education粘贴到论坛人数百分比平均值最高,其次为主题Government, Health, and Social Science,其次为主题Science, Technology, Engineering, and Mathematics,主题Computer Science粘贴到论坛人数百分比平均值最低。

相同主题下各机构的粘贴到论坛人数百分比平均值比较:

MIT的Computer Science主题粘贴到论坛人数百分比平均值高于Harvard,且Harvard的粘贴到论坛人数百分比平均值为0,需要重点关注;

MIT的Government, Health, and Social Science主题粘贴到论坛人数百分比平均值高于Harvard;

Harvard的Humanities, History, Design, Religion, and Education主题粘贴到论坛人数百分比平均值高于MIT;

Harvard的Science, Technology, Engineering, and Mathematics主题粘贴到论坛人数百分比平均值高于MIT。


三、讲师

  • 总数
  • 不同机构讲师人数
  • 不同主题讲师人数
  • 不同主题各机构讲师人数
  • 不同讲师学生数量top10
  • 不同讲师课程数量top10
  • 不同讲师课程平均学生数量top10

平台共有113名讲师;

不同机构比较而言Harvard有54名讲师,MIT有讲师59名,二者相差不大;

不同主题比较而言主题Science, Technology, Engineering, and Mathematics讲师人数最多40名,其次为主题Humanities, History, Design, Religion, and Education34名,其次为主题Government, Health, and Social Science33名,主题Computer Science讲师人数人数最少6名。

相同主题下各机构的讲师比较:

MIT的Computer Science主题讲师人数4名高于Harvard2名;

MIT的Government, Health, and Social Science主题讲师人数为16名与Harvard17名相近;

Harvard的Humanities, History, Design, Religion, and Education主题讲师人数为29名远高于MIT5名;

MIT的Science, Technology, Engineering, and Mathematics主题讲师人数为34名远高于Harvard6名。

讲师学生数top10与讲师课程数top10并不完全重合,说明有不受欢迎的讲师讲授多节课程的情况。所以添加了计算字段‘讲师课程平均学生数’即讲师每节课的平均学生数量。

将讲师课程平均学生数取top10,平台应该提高这些讲师的授课数量。


五、结论及建议

描述性结论:

由于维度较多,所以这里用表格来代替文字进行描述。

注:因主题全称过长,所以表格中保留了每个主题名称的首个单词指代相应主题

相关性结论:

平台改建议[2]

参考

  1. ^[1]王野. edX平台MOOC发展现状及特征研究[D].哈尔滨师范大学,2015.
  2. ^[2]曾伟忠,胡惠芳.Coursera和edX平台数据分析类MOOC的调查与分析[J].图书馆学研究,2018(22):22-28.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值