DKhadoop框架结构说明

最新推荐文章于 2024-08-01 16:11:59 发布

ciwei03773

最新推荐文章于 2024-08-01 16:11:59 发布

阅读量113

点赞数

文章标签：大数据爬虫数据库

近年，随着互联网的发展特别是移动互联网的发展，数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过 1 亿个（ 2000 年数据，）数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架，解决了海量数据处理的问题。谷歌公司随即将设计思路开源，发表了具有划时代意义的三篇论文，很快根据谷歌设计思路的开源框架就出现了，就是如今非常火爆的 hadoop 、 Maperduce 和许多 Nosql 系统。这三大技术也是整个大数据技术的核心基础。

目前国内的 hadoop 商业发行版也是比较多，这些 hadoop 商业版大部分都是由国外发行的， 纯国产的发行版不是很多，比如 DKhadoop ，可以说是目前国内自主做 hadoop 商业版比较好的了。 下面就以大快搜索 DKhadoop 为例来给大家介绍一下 hadoop 框架结构！

图示： DKhadoop 技术技术架构图

hadoop 框架结构核心：

hadoop 的框架结构最核心的设计就是： HDFS 和 MapReduce 。 HDFS 为海量的数据提供了存储， MapReduce 为海量的数据提供了计算。

大数据一体化开发框架：

大数据的应用开发过于偏向底层，设计技术面非常广泛，学习的难度自然要大的很多。对于新手入门更是难上加难。 DKhadoop 则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的，重复使用的基础代码、算法封装为类库，降低了大俗局的学习门槛，降低开发难度。

DKhadoop 框架结构构成模块：

我们以 DKhadoop 发行版为例：

1 、框架由：数据源与 SQL 引擎、数据采集（自定义爬虫）模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块，六部分组成。

2 、大快的大数据通用计算平台（ DKH ），已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架，需要平台的组件支持如下：

（ 1 ）数据源与 SQL 引擎： DK.Hadoop 、 spark 、 hive 、 sqoop 、 flume 、 kafka

（ 2 ）数据采集： DK.hadoop

（ 3 ）数据处理模块： DK.Hadoop 、 spark 、 storm 、 hive

（ 4 ）机器学习和 AI ： DK.Hadoop 、 spark

（ 5 ） NLP 模块：上传服务器端 JAR 包，直接支持

（ 6 ）搜索引擎模块：不独立发布

Dkhadoop 是大快深度整合，重新编译后的 HADOOP 发行版，可单独发布。独立部署 FreeRCH （大快大数据一体化开发框架）时，必需的组件。 DK.HADOOP 整合集成了 NOSQL 数据库，简化了文件系统与非关系数据库之间的编程； DK.HADOOP 改进了集群同步系统，使得 HADOOP 的数据处理更加高效。