基于云计算平台的并行数据挖掘

最新推荐文章于 2022-05-20 11:54:32 发布

nodie

最新推荐文章于 2022-05-20 11:54:32 发布

阅读量323

点赞数 1

分类专栏： hadoop 文章标签：数据挖掘云计算 Mapreduce Hadoop HBase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nodie/article/details/83915531

版权

hadoop 专栏收录该内容

62 篇文章 0 订阅

订阅专栏

基于云计算平台的并行数据挖掘

已有 1261 次阅读 2010-5-7 14:26 |个人分类:cloud|系统分类:科研笔记

采用云计算技术，实现海量数据的存储、分析、处理、挖掘，提供高可靠性、高性能的数据挖掘分析。
从系统架构来讲，基于云计算的并行数据挖掘工具平台包括三个层次，依下而上为

分布式计算层；
数据挖掘平台层；
业务应用层

（1）分布式计算平台层：包括三部分功能：

l 分布式文件系统：提供分布式数据文件存储功能，提供具备高可靠性、高稳定性的存储平台；

l 并行编程环境：提供基于Mapreduce的编程模型，及任务调度、任务执行、结果反馈等功能；及向平台提交作业功能；

l 分布式系统管理：实现对平台的分布式系统管理。

（2）数据挖掘平台层：包括五部分功能：

l 工作流模块：实现对各个数据挖掘步骤及模块总控、调度功能；

l 数据加载模块：将源数据从其他外设中导入云计算平台的DFS系统；

l 并行ETL模块：对原始数据进行预处理以得到挖掘数据；并行数据挖掘工具向云计算平台提交待执行的ETL任务，由云计算平台执行并反馈结果，存放于DFS；

l 并行数据挖掘算法模块：实现满足业务需要的数据挖掘算法；并行数据挖掘工具平台向云计算平台提交待执行的聚类算法任务，由云计算平台执行并反馈结果，存放于DFS；

l 并行结果展示模块：将并行数据挖掘算法的结果展示给用户；

（3）业务应用层：实现电信类的业务应用，以供市场部门制定营销策略，具体业务应用如：客户分群，用户职业预测等。用户可以通过两种方式使用并行数据挖掘工具：

l 基于用户GUI界面：用户可以通过工具进行数据的加载、ETL操作、数据挖掘算法及结果展示，来实现所需的应用。

l 基于算法库API：用户可以编写应用系统，调用算法库中的API来实现应用功能。

以上转自：http://labs.chinamobile.com/mblog/226_15240

注：具体底层实现可考虑使用 Hadoop(HDFS)或 Greenplum(PostgreSQL)

1. Hadoop (http://hadoop.apache.org/)

Hadoop是项目的总称，主要是由 HDFS、MapReduce和Hbase组成。

HDFS是Google File System（GFS）的开源实现。
MapReduce是Google MapReduce的开源实现。
HBase是Google BigTable的开源实现。

2. Greenplum (http://www.greenplum.com)

下一代强大的数据仓库，数据引擎，分析数据库。

Greenplum数据引擎是为了支持新一代数据仓库和分析处理大规模数据而建立的软件解决方案。Greenplum 支持SQL和MapReduce的并行处理功能，并能以较低的成本向管理TB量到PB量级数据的企业提供业界领先的性能。

Greenplum数据引擎的优势在于：

a. 建立超大级的数据量
依照需求，快速简便的建立任意大小和种类的数据仓库
使用业界的标准硬件，扩充符合成本效益

b. 海量并行的查询能力
相比于传统查询，可以以10倍到100倍的超快速度得到答案
随着您的数据增长确保高性能的分析效率

c. 不定格式的数据处理
一个平台可以支持数据查询，机器学习，文本挖掘，统计计算等
使用业界标准的语言（SQL，MapReduce），在各个数据层级进行并行分析

"看上去都很美，问题就是海量数据每天怎么导入到 Greenplum 中来? 借助传统的 ETL 工具(Informatica / DataStage ...) 或者自己写 ETL 功能脚本来做。这就是个麻烦事。海量数据的载入与导出，对于 Greenplum 来说，似乎只能用传统的老办法。如果 Greenplum 带一个 ETL 工具就真的强了。" (摘自 DBAnotes)

注：Greenplum有自己的ETL工具？gpfdist，基于并行的快速加载，load速度非常快，并且可以线性扩展进一步提升速度。兼容其他ETL工具，在不同的情况下，使用者可以使用传统的工具。

Reference:

Definition of Cloud Computing: http://csrc.nist.gov/groups/SNS/cloud-computing/

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于云计算平台的并行数据挖掘

基于云计算平台的并行数据挖掘已有 1261 次阅读 2010-5-7 14:26 |个人分类:cloud|系统分类:科研笔记采用云计算技术，实现海量数据的存储、分析、处理、挖掘，提供高可靠性、高性能的数据挖掘分析。从系统架构来讲，基于云计算的并行数据挖掘工具平台包括三个层次，依下而上为分布式计算层；数据挖掘平台层；业务应用层（1）分布式计算平台层：包括三部...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。