基于云计算平台的并行数据挖掘
||
从系统架构来讲,基于云计算的并行数据挖掘工具平台包括三个层次,依下而上为
- 分布式计算层;
- 数据挖掘平台层;
- 业务应用层
l 分布式文件系统:提供分布式数据文件存储功能,提供具备高可靠性、高稳定性的存储平台;
l 并行编程环境:提供基于Mapreduce的编程模型,及任务调度、任务执行、结果反馈等功能;及向平台提交作业功能;
l 分布式系统管理:实现对平台的分布式系统管理。
l 工作流模块:实现对各个数据挖掘步骤及模块总控、调度功能;
l 数据加载模块:将源数据从其他外设中导入云计算平台的DFS系统;
l 并行ETL模块:对原始数据进行预处理以得到挖掘数据;并行数据挖掘工具向云计算平台提交待执行的ETL任务,由云计算平台执行并反馈结果,存放于DFS;
l 并行数据挖掘算法模块:实现满足业务需要的数据挖掘算法;并行数据挖掘工具平台向云计算平台提交待执行的聚类算法任务,由云计算平台执行并反馈结果,存放于DFS;
l 并行结果展示模块:将并行数据挖掘算法的结果展示给用户;
l 基于用户GUI界面:用户可以通过工具进行数据的加载、ETL操作、数据挖掘算法及结果展示,来实现所需的应用。
l 基于算法库API:用户可以编写应用系统,调用算法库中的API来实现应用功能。
以上转自:http://labs.chinamobile.com/mblog/226_15240
注:具体底层实现可考虑使用 Hadoop(HDFS)或 Greenplum(PostgreSQL)
1. Hadoop (http://hadoop.apache.org/)
Hadoop是项目的总称,主要是由 HDFS、MapReduce和Hbase组成。
- HDFS是Google File System(GFS)的开源实现。
- MapReduce是Google MapReduce的开源实现。
- HBase是Google BigTable的开源实现。
下一代强大的数据仓库,数据引擎,分析数据库。
Greenplum数据引擎是为了支持新一代数据仓库和分析处理大规模数据而建立的软件解决方案。Greenplum 支持SQL和MapReduce的并行处理功能,并能以较低的成本向管理TB量到PB量级数据的企业提供业界领先的性能。
Greenplum数据引擎的优势在于:
a. 建立超大级的数据量
依照需求,快速简便的建立任意大小和种类的数据仓库
使用业界的标准硬件,扩充符合成本效益
b. 海量并行的查询能力
相比于传统查询,可以以10倍到100倍的超快速度得到答案
随着您的数据增长确保高性能的分析效率
c. 不定格式的数据处理
一个平台可以支持数据查询,机器学习,文本挖掘,统计计算等
使用业界标准的语言(SQL,MapReduce),在各个数据层级进行并行分析
注:Greenplum有自己的ETL工具?gpfdist,基于并行的快速加载,load速度非常快,并且可以线性扩展进一步提升速度。兼容其他ETL工具,在不同的情况下,使用者可以使用传统的工具。
Reference:
Definition of Cloud Computing: http://csrc.nist.gov/groups/SNS/cloud-computing/