Hadoop（一）关于hadoop认识和理解

最新推荐文章于 2022-11-09 21:39:31 发布

叔叔不会写代码

最新推荐文章于 2022-11-09 21:39:31 发布

阅读量806

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/qiaobiao/article/details/105228460

版权

一、hadoop是什么？
狭义上：hadoop是一个apache的一个顶级项目，一套开源软件平台
广义上：hadoop是以hadoop为核心的整个大数据处理体系
二、hadoop核心组件
1、Hadoop Common :支持其他Hadoop模块的常用工具
2、HDFS:hadoop分布式文件系统，提供对应用程序的高吞吐量访问
3、Hadoop Yarn:作业调度和集群资源管理框架
4、Hadoop MapReduce：基于Yarn框架的一种并行处理大型数据集的系统
通俗点说，Yarn相当于计算机的操作系统
HDFS相当于计算机的文件系统
MapReduce相当于运行在操作系统上的软件
三、hadoop生态圈常见组件
1、Ambari:一种用于供应、管理和监控Apache Hadoop集群的基于Web的工具，其中包括对Hadoop HDFS，Hadoop MapReduce，Hive,HCatalog,Hbase,Zookeeper，Oozie,pig和Sqoop的支持。Ambari还提供了一个用于查看集群运行状况的仪表板，，例如热图和可以直观查看的MapReduce，Pig和Hive应用程序的功能，以及以用户友好的方式诊断其性能特征的功能。
2、Avro:数据序列化系统
3、Cassandra：无单点故障的可扩展的数据库
4、Chukwa:管理大型分布式的数据收集系统
5、HBase：可扩展的分布式数据库，支持大型表格的结构化数据存储
6、Hive提供数据汇总和吉时查询的数据仓库基础架构
7、Mahou:可扩展的机器学习和数据挖掘库‘
8、Pig:用于并行计算的高级数据流语言和执行框架
9、Spark:用于Hadoop数据的快速和通用计算引擎。spark提供了一个简单而富有表现力的编程模型，它支持广泛的应用程序，包括ETL(数据抽取、转换和加载)、机器学习、流处理和图计算。
10、Tez:一种基于Hadoop Yarn的通用数据流编程框架，它提供了一种强大而灵活的引擎，可以执行任意DAG任务来处理批处理和交互式用例的数据。
11、zookeeper：分布式应用程序的高性能协调服务
重要组件：
HDFS：Hadoop的分布式文件存储系统。
MapReduce：Hadoop的分布式程序运算框架，也可以叫做一种编程模型。
Hive：基于Hadoop的类SQL数据仓库工具
Hbase：基于Hadoop的列式分布式NoSQL数据库
ZooKeeper：分布式协调服务组件
Mahout：基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库
Oozie/Azkaban：工作流调度引擎
Sqoop：数据迁入迁出工具
Flume：日志采集工具
四、Hadoop的技术应用
1、数据服务基础平台建设
2、用户画像
3、网站点击流日志数据挖掘