oracle从入门到精通_【论文】基于SPSS Modeler和Oracle的学生行为数据分析

张翠轩,曹素丽,王淑梅 (石家庄邮电职业技术学院计算机系,河北 石家庄050021)

摘要:

随着校园信息化程度的日益提高。学校积累了大量的学生数据,如何充分利用这些数据,获取其中蕴藏的价值,已经成为大数据时代面临的主要任务。基于数据挖掘工具SPSSModeler和Oracle数据库对校园“一卡通”数据进行分析,挖掘出学生消费习惯、奖学金和助学金之间的关系,从而使学校相关管理部门从中受益。

关键词:大数据;数据挖掘;数据库;一卡通

中图分类号:TP393

文献标识码:A

文章编号:1009-3044(2018)28-0001-03

目前,校园的数字化、信息化已经普及,校园一卡通作为信息载体,成为学校信息资源整合的重要组成部分,它将学校的各个部门连为一体,动态掌握持卡人的生活和学习情况,并与学校其他信息基础设施相配合,极大地提高了学校的管理效率和水平。为了顺应高校信息化发展,将学生日常一卡通数据、奖学金和助学金数据与数据库和数据挖掘技术进行整合和分析,主要针对学生的消费习惯和学习行为进行分析,首先通过数据清洗、数据预处理、数据集成、数据转换与数据规约等数据预处理手段提取出一个小型数据仓库,然后采用一种优化的K-means算法进行聚类分析,将学生分为几类,并分析不同类别行为特征,最后运用决策树模型采用Apriori关联规则算法针对学生学习相关行为进行关联度分析。SPSS Modeler充分利用计算机系统的运算处理能力和图形展现能力,将方法、应用与工具有机地融为一体,该软件不但界面友好、操作简捷,而且功能强大,是解决数据挖掘问题的最理想的工具。Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的适应高吞吐量的数据库解决方案。

午餐最能反映学生的消费情况,为了探究学生助学金评定的合理性,本文主要研究午餐消费情况与学生助学金之间的相关性;另外,鉴于当前大学生不吃早餐的情况,来探究良好的早餐习惯和学习结果是否具有一定的关系,所以这里还要研究早餐习惯与学生奖学金之间的相关性。

1、数据前期处理

为了更好地对数据进行分析,有必要对原始数据进行充分的处理准备,主要针对学生就餐、奖学金和助学金这3种数据。

1.1就餐数据

为了解学生的就餐规律和习惯,获取了2017年1月1日到2017年5月1日的所有就餐数据,大约200万条数据,如表1所示。

7fb77b14e59039004839ce8c3931fd15.png

2d77fe36602a02ae580878144e12a22e.png

学生每次就餐可能要光顾不同窗口,产生多次消费记录, 所以,若要了解学生早餐和午餐的就餐情况,有必要对数据进行前期的处理。在Oracle数据库下对数据进行统计,早餐时间段在6点到10点之间,午餐时间段在10点到下午1点之间,早餐具体实现过程见下面的程序。 

SELECT*

FROM餐厅消费 

WHERERIGHT(opdt,8)BETWEEN'06:00:00'AND'10:00: 00' //保存为早餐1 

用同样方法可以形成午餐数据。 

在形成早餐和午餐数据的基础上,统计出每人每餐的消费 金额,实现过程如下面程序所示。最终形成每人的早餐次数以 及平均消费金额。 

select姓名,时间,sum(消费金额)as每天早餐消费总金额

from早餐1

groupby姓名,时间 

用同样的方法形成每人的午餐平均消费金额。

1.2奖学金数据 

获取到3年的奖学金数据,按学号姓名进行统计,统计出 每个获奖学生的获奖次数以及总金额,程序如下:

select学号,姓名,count(学号)AS次数,sum(金额)AS总金额 

from奖学金all 

groupby学号 

orderby总金额desc 

结果如表2所示。 

7e65f107f380c268d26702edca895e9d.png

1.3助学金数据 

获取到3年的助学金数据,按学号、姓名对获得次数和总 金额进行统计,程序如下:

select学号,姓名,count(学号)AS次数,sum(助学金金额)AS 总金额 

from助学金all 

groupby学号 

orderby总金额desc 

结果如表3所示。 

7b7d6f6f189554c29e17af494a467c2c.png

1.4数据整合 

将上述数据整合到一个文件中,如图1所示。

4c2964173c2074b85860a61f67bad113.png

2、针对SPSSModeler的Apriori算法的数据预处理 

最早的Apriori算法是阿格拉瓦尔和斯里坎特于1994年提出的,现在是数据挖掘中简单关联规则技术的核心算法。Apriori算法是为提高关联规则的产生效率而设计的,只能处理分类型变量,无法处理数值型变量,所以有必要对整合后的数据进行预处理。 

数据准备

为了提高效率,这里进行了70%的分层抽样, 又根据Apriori算法的需要,计算生成新的分类型变量,再通过特征选择,去除掉不必要的变量,然后对图1的数据进行多级评定计算,定义出A、 B、 C、 D和E这5种级别,如图2所示。

05f6617a56d3e9ac4bcaac77706ca2ec.png

3、相关性分析 

选择“建模”选项卡中的“Apriori”节点,将其连接到数据流恰当位置上,如图3所示。分析的目的是找到所获得奖学金、 助学金、午餐消费以及早餐消费次数的关系,所以这4项均被选入后项和前项。

72b775cd85ade8f465f5b062369e0f86.png

在最低条件支持度中,指定前项最小支持度为6%,最小规则置信度为65%,为防止关联规则过于复杂,指定前项包含的最大项目数为5,分析结果如图4所示。

c0fd53c75e78e1a21caeabecc2cc57e5.png

4、结果分析 

SPSS Modeler以列表形式列出计算所得的2条简单关联规则。其结果具体解读为: 

1)如果学生吃早餐次数较多,午餐消费比较低,获得头等奖学金的机会就很大,支持度百分比为8.174%,置信度百分比为67.518%。这类学生起床早、勤快,家庭条件较差或本人比较节俭,努力学习的可能性就很大,从而获得较高级别的奖学金。

2)如果学生家庭经济状况比较困难,得到的是C类助学金,而且学习成绩相对较好,这类学生午餐消费就很低。 

3)如果学生家庭条件非常困难,助学金得到的是最高级别,而且午餐消费很低,这类学生反而没有获得奖学金。 

上面前两条关联规则是当今大学生的普遍现象,但是看到 第3条的时候很令人意外,和相关辅导员交流之后才发现,原来这类学生大都来自偏远地区,学习基础不好,到大学后学习上跟起来就比较吃力,所以学习成绩不好。 

综上所述,学校管理部门应在以下方面做出管理策略: 

1)教学部门应该对偏远地区的学生学习给予更多帮助,必 要时单独辅导。

2)学生管理部门在评定助学金时要严格把关,参考学生消 费数据,尽量将助学金发放到最需要的学生手中。

3)鼓励学生吃早餐,不仅能够提高身体素质,更能养成勤快的习惯,促进学习成绩的提高。 

5、结论 

通过对校园一卡通数据、奖学金和助学金数据的分析,由于篇幅有限,不再一一列出分析过程,总共得出了下面这些结论: 

1)助学金和就餐消费的关联性。 

2)助学金和奖学金的关联性。 

3)早餐情况数据分析。 

4)早餐和身体健康状况的关联性。 

5)早餐和奖学金状况的关联性。 

6)学生籍贯和窗口(菜品)关联性。 

7)奖学金和籍贯的关联性。

8)助学金和籍贯的关联性。

9)孤僻人群的发现。 

10)消费与性别的关联性。 

11)消费水平与系部关联性。 

12)餐厅各个窗口就餐人数排名。 

13)餐厅各个窗口收入金额排名。 

这些结论对于教务部门、学生管理部门、后勤管理部门等都有很好的指导意义,其实,预先有很多种假设,但是通过挖掘却发现没有相应的结果,当然没有规律的结论也是一种结论, 当然也会出现一些预想不到的规律,这也许就是数据挖掘的魅力所在。 

遗憾的是,目前校园“一卡通”的数据还不是很全面,不能覆盖所有学生行为,随着校园信息化的发展,校园“一卡通”必 将更准确反映学生在校的各种消费和学习行为,对应的数据分析将更加具有指导意义。 

参考文献:

[1]薛薇.基于SPSSModeler的数据挖掘(第二版) [M].北京:中国 人民大学出版社,2014. 

[2]JiaweiHanMichelineKamberJianPei.数据挖掘概念与技术 [M].北京:机械工业出版社,2016. 

[3]谷斌.数据仓库与数据挖掘实务[M].北京:北京邮电大学出版 社,2014. 

[4]Levin N,Zahavi J.Predictive modeling using segmentation. Jouralo fInteractive Markeing, 2001,15(2):2-23

[5]秦靖.Oracle从入门到精通[M].北京:机械工业出版社,2011. 

[6]www.oracle.com网站. [7]http://bbs.pinggu.org/人大经济论坛.

文章来源:《电脑知识与技术》第14卷第28期 (2018年10月)收稿日期:2018-09-05

基金项目:大数据技术应用专业建设与实践研究(项目编号:YB2016016) 

作者简介:

张翠轩(1971—),女,河北省石家庄人,讲师,硕士,石家庄邮电职业技术学院计算机系教师,主要研究方向:大数据应用; 

曹素丽,女,河北省石家庄人,讲师,硕士,石家庄邮电职业技术学院计算机系教师,主要研究方向:大数据应用;

王淑梅, 女,河北省石家庄人,讲师,硕士,石家庄邮电职业技术学院计算机系教师,主要研究方向:大数据应用。 

bd38404bd125dd8bc015b12af6e94bff.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值