Hadoop大数据生态圈介绍

最新推荐文章于 2024-07-27 18:36:27 发布

mikasoi

最新推荐文章于 2024-07-27 18:36:27 发布

阅读量2.3k

点赞数 3

分类专栏：大数据

本文链接：https://blog.csdn.net/mikasoi/article/details/82721842

版权

1 篇文章 0 订阅

订阅专栏

Hadoop、Spark生态圈主要介绍

Hadoop核心组件有哪些？广义Hadoop指什么？

核心组件有：Hdfs、Yarn、MapReduce
广义上指一个生态圈，泛指大数据技术相关的开源组件或产品，如hdfs、yarn、hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop、...,以后将进行详细说明
特点是开源（Apache协议）、分布式、大容量、可扩展、HA等，应用中可灵活组合使用

Spark与Hadoop之间有什么联系

文件系统：

资源调度：

计算框架：

数据库：

Hbase，一种NoSQL列簇数据库，支持数十亿行数百万列大型数据储存和访问，尤其是写数据的性能非常好，数据读取实时性较好，提供了一套API，不支持SQL操作，数据存储采用HDFS
Cassandra，对大型表格和Dynamo支持得最好
Redis，运行异常快，还可应用于分布式缓存场景

SQL支持：

其他工具：

分布式协作zookeeper，可以理解为一个小型高性能的数据库，为生态圈中很多组件提供发布订阅功能，还可以监测节点是否失效（心跳检测），如HBase、Kafka中利用zookeeper存放了主从节点信息
Kafka，是一种分布式的，基于发布/订阅的消息系统，类十余消息队列的功能，可以接受生产者（如webservice、文件、hdfs、hbase等）的数据，本身可以缓存起来，然后可以发送给消费者（同上），起到缓冲和适配的作用
Flume，分布式的海量日志采集、聚合和传输的系统，主要作用是数据的收集和传输，也支持非常多的输入输出数据源
Sqoop，主要用于在Hadoop(Hive)与传统的数据库（mysql、pstgresql...）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle，Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中
Solr，提供全文搜索服务，基于Lucene的全文搜索服务器

Flume → kaffa → Hdfs → Spark/Storm/Hive → Hbase/Redis/Mysql → Phoenix/Spark sql/Hive （大数据组件）

→ Jdbc → Hibernate/Mybatis/Jfinal → Struts2/Spring MVC/Jfinal → Echarts/Html （常规的编程、前端展示组件）

Flume从各种渠道收集数据发送到Kafka
Kafka可以缓存数据，并将原始数据存放到hdfs
Spark/Storm/Hive从hdfs中取出数据进行清洗、统计等计算操作，并把统计结果存放到Hbase/Redis/Mysql
Phoenix/Spark sql/Hive提供了标准Jdbc方式的访问接口，调用程序只需向Jdbc接口编程，即可读取Hbase/Redis/Mysql中的数据
Jdbc获取到数据后通过ORM组件（Hibernate/Mybatis/Jfinal），将数据集合转换为对象集合，一般为List<T>形式，发送到控制层Struts2/Spring MVC/Jfinal
控制层把数据发给view层，最终使用Echarts来绘制图形报表展示给用户