之前已经有大神发过一个《智慧中国杯百万大奖赛解读》系列的文章,好多小白初学者表示文章好高大上,他们感觉有点懵,记不住那么多的原语。那么有没有更加简便的方法呢,不需要记一堆原语,也不需要记各种各样的格式。
大家别着急,OpenFEA早就为菜鸟们考虑好了。OpenFEA的可视化分析模块,就采用可视化的图表操作方式,将原语操作简化为点击几下按钮即可完成数据的分析处理,让菜鸟迅速变成老鸟不再是梦想。
下面让我们跟随高人的脚步,向百万奖金发起冲击吧。Follow me!!!
一、数据介绍
OpenFEA已经将上述数据存放到了OpenFEA在线试用环境的match/fund目录下,具体在www.openfea.cn下载专区里有介绍。
二、助学金数据分析
关于大赛的介绍这里就不多说了,可以参看之前大神的文章智慧中国杯算法赛解读 | 精准资助数据探索(一),我们直接上干货。
1、加载助学金数据
因为原始数据没有列名,所以加参数with (header=-1)为各列自动填写列名。
2、修改字段名
分别用id和money表示学生编号和资助金额(下图以id为例)。
3、分组统计
按照money字段进行分组统计,查看助学金共有几个档次。
4、绘制饼图
可视化展现助学金的分组情况。
三、一卡通数据
1、加载一卡通数据
2、修改字段名
分别用id、pos、address、catalog、time、cost、have表示学生编号、pos消费、消费地点、消费时间、消费金额、余额(下图以id为例)。
3、分组统计
按照id字段进行分组,然后按照cost字段进行最大值、最小值、平均值、中位数的计算。
4、再次进行分组统计
按照id字段进行分组,然后按照have字段进行最大值、最小值、平均值、中位数的计算。
5、关联表
将card_cost表和card_have表用index字段关联起来。
6、查看card_money表的简要统计信息
消费总额最高的是3万多,中位数是8903,单笔最大的消费是4407元,中位数是300,有人单笔最低是93元,看来此同学属于土豪行列,出现的负数可能是退款或误扣等,这个要结合业务知识去判断了,也可以作为噪音处理一下。
卡里保有金额的最大是4399元,中位数是316元,还比较符合对学生的印象。