近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过 1 亿个( 2000 年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今非常火爆的 hadoop 、 Maperduce 和许多 Nosql 系统。这三大技术也是整个大数据技术的核心基础。
目前国内的 hadoop 商业发行版也是比较多,这些 hadoop 商业版大部分都是由国外发行的, 纯国产的发行版不是很多,比如 DKhadoop ,可以说是目前国内自主做 hadoop 商业版比较好的了。 下面就以大快搜索 DKhadoop 为例来给大家介绍一下 hadoop 框架结构!
图示: DKhadoop 技术技术架构图
hadoop 框架结构核心:
hadoop 的框架结构最核心的设计就是: HDFS 和 MapReduce 。 HDFS 为海量的数据提供了存储, MapReduce 为海量的数据提供了计算。
大数据一体化开发框架:
大数据的应用开发过于偏向底层,设计技术面非常广泛,学习的难度自然要大的很多。对于新手入门更是难上加难。 DKhadoop 则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,降低了大俗局的学习门槛,降低开发难度。
DKhadoop 框架结构构成模块:
我们以 DKhadoop 发行版为例:
1 、框架由:数据源与 SQL 引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块,六部分组成。
2 、大快的大数据通用计算平台( DKH ),已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:
( 1 )数据源与 SQL 引擎: DK.Hadoop 、 spark 、 hive 、 sqoop 、 flume 、 kafka
( 2 )数据采集: DK.hadoop
( 3 )数据处理模块: DK.Hadoop 、 spark 、 storm 、 hive
( 4 )机器学习和 AI : DK.Hadoop 、 spark
( 5 ) NLP 模块:上传服务器端 JAR 包,直接支持
( 6 )搜索引擎模块:不独立发布
Dkhadoop 是大快深度整合,重新编译后的 HADOOP 发行版,可单独发布。独立部署 FreeRCH (大快大数据一体化开发框架)时,必需的组件。 DK.HADOOP 整合集成了 NOSQL 数据库,简化了文件系统与非关系数据库之间的编程; DK.HADOOP 改进了集群同步系统,使得 HADOOP 的数据处理更加高效。
关于 hadoop 框架结构暂且简单介绍这些,感兴趣的朋友可以找一下大快搜索的 DKhadoop 试一下。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31524777/viewspace-2216441/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/31524777/viewspace-2216441/