大数据环境下集成R语言的数据挖掘平台 之介绍、数据上传与数据预处理

本文介绍了基于R语言开发的大数据分析平台,旨在提供图形化界面进行数据分析,支持包括分类、聚类、关联规则等多种方法。平台具备数据上传、数据摘要和预处理功能,能处理TB级数据。数据上传模块支持文件上传和数据摘要生成,预处理模块包含缺失值和噪声点处理。所有功能均结合Java和R语言实现,并提供了丰富的可视化选项。
摘要由CSDN通过智能技术生成

这个集成R语言的数据挖掘平台是当时为中国软件杯比赛做的一个系统,由于时间太紧,当时开发只用了一周的时间,不过前前后后用了大半年来学习和熟悉R语言,深深感觉到R语言真的是数据分析的一个利器,内置的各种分析包大大简化了数据分析的过程,只需要传参调用即可,再也不需要读懂算法才能完成分析了。但是,R语言当前还是需要以命令行的形式使用的,RStudio也只是优化了应用程序的界面,没有方便的针对业务人员的一个应用。我们做这个平台的初衷就是:

  1. 图形可视化。让用户使用图形化界面进行操作。用户可以设置数据来源,选择分析方法,设置分析参数,建立分析流程,不用编写R代码就能够进行数据分析,得出结果。
  2. 多种数据分析方法。系统提供分类、聚类、关联规则挖掘、时间序列等多种分析方法,里面又内置多种不同的分析算法。
  3. 大数据分析。能够支持TB级数据。

所以一切的开发都围绕着这三个方向来:

  1. 实现Java调用R来画图,并用Struts2+Hibernate开发网站进行呈现。
  2. 了解各种数据分析方法,用Java调用R进行算法实现。
  3. 搭建分布式环境,用Hadoop实现KMeans和KNN。

在初步调研后,我们很快确定了系统架构(这样的架构在当时能够做出来现在想想也是挺有模有样的。):
R语言平台架构

以及功能模块图:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值