这个集成R语言的数据挖掘平台是当时为中国软件杯比赛做的一个系统,由于时间太紧,当时开发只用了一周的时间,不过前前后后用了大半年来学习和熟悉R语言,深深感觉到R语言真的是数据分析的一个利器,内置的各种分析包大大简化了数据分析的过程,只需要传参调用即可,再也不需要读懂算法才能完成分析了。但是,R语言当前还是需要以命令行的形式使用的,RStudio也只是优化了应用程序的界面,没有方便的针对业务人员的一个应用。我们做这个平台的初衷就是:
- 图形可视化。让用户使用图形化界面进行操作。用户可以设置数据来源,选择分析方法,设置分析参数,建立分析流程,不用编写R代码就能够进行数据分析,得出结果。
- 多种数据分析方法。系统提供分类、聚类、关联规则挖掘、时间序列等多种分析方法,里面又内置多种不同的分析算法。
- 大数据分析。能够支持TB级数据。
所以一切的开发都围绕着这三个方向来:
- 实现Java调用R来画图,并用Struts2+Hibernate开发网站进行呈现。
- 了解各种数据分析方法,用Java调用R进行算法实现。
- 搭建分布式环境,用Hadoop实现KMeans和KNN。
在初步调研后,我们很快确定了系统架构(这样的架构在当时能够做出来现在想想也是挺有模有样的。):
以及功能模块图: