DKhadoop框架结构说明

近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过 1 亿个( 2000 年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今非常火爆的 hadoop Maperduce 和许多 Nosql 系统。这三大技术也是整个大数据技术的核心基础。

目前国内的 hadoop 商业发行版也是比较多,这些 hadoop 商业版大部分都是由国外发行的, 纯国产的发行版不是很多,比如 DKhadoop ,可以说是目前国内自主做 hadoop 商业版比较好的了。 下面就以大快搜索 DKhadoop 为例来给大家介绍一下 hadoop 框架结构!

 

图示: DKhadoop 技术技术架构图

hadoop 框架结构核心:

hadoop 的框架结构最核心的设计就是: HDFS MapReduce HDFS 为海量的数据提供了存储, MapReduce 为海量的数据提供了计算。

大数据一体化开发框架:

大数据的应用开发过于偏向底层,设计技术面非常广泛,学习的难度自然要大的很多。对于新手入门更是难上加难。 DKhadoop 则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,降低了大俗局的学习门槛,降低开发难度。

DKhadoop 框架结构构成模块:

我们以 DKhadoop 发行版为例:

1 、框架由:数据源与 SQL 引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块,六部分组成。

2 、大快的大数据通用计算平台( DKH ),已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:

1 )数据源与 SQL 引擎: DK.Hadoop spark hive sqoop flume kafka

2 )数据采集: DK.hadoop

3 )数据处理模块: DK.Hadoop spark storm hive

4 )机器学习和 AI DK.Hadoop spark

5 NLP 模块:上传服务器端 JAR 包,直接支持

6 )搜索引擎模块:不独立发布

Dkhadoop 是大快深度整合,重新编译后的 HADOOP 发行版,可单独发布。独立部署 FreeRCH (大快大数据一体化开发框架)时,必需的组件。 DK.HADOOP 整合集成了 NOSQL 数据库,简化了文件系统与非关系数据库之间的编程; DK.HADOOP 改进了集群同步系统,使得 HADOOP 的数据处理更加高效。

关于 hadoop 框架结构暂且简单介绍这些,感兴趣的朋友可以找一下大快搜索的 DKhadoop 试一下。

 


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31524777/viewspace-2216441/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31524777/viewspace-2216441/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值