Hadoop(一)关于hadoop认识和理解

一、hadoop是什么?
狭义上:hadoop是一个apache的一个顶级项目,一套开源软件平台
广义上:hadoop是以hadoop为核心的整个大数据处理体系
二、hadoop核心组件
1、Hadoop Common :支持其他Hadoop模块的常用工具
2、HDFS:hadoop分布式文件系统,提供对应用程序的高吞吐量访问
3、Hadoop Yarn:作业调度和集群资源管理框架
4、Hadoop MapReduce:基于Yarn框架的一种并行处理大型数据集的系统
通俗点说,Yarn相当于计算机的操作系统
HDFS相当于计算机的文件系统
MapReduce相当于运行在操作系统上的软件
三、hadoop生态圈常见组件
1、Ambari:一种用于供应、管理和监控Apache Hadoop集群的基于Web的工具,其中包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,Hbase,Zookeeper,Oozie,pig和Sqoop的支持。Ambari还提供了一个用于查看集群运行状况的仪表板,,例如热图和可以直观查看的MapReduce,Pig和Hive应用程序的功能,以及以用户友好的方式诊断其性能特征的功能。
2、Avro:数据序列化系统
3、Cassandra:无单点故障的可扩展的数据库
4、Chukwa:管理大型分布式的数据收集系统
5、HBase:可扩展的分布式数据库,支持大型表格的结构化数据存储
6、Hive提供数据汇总和吉时查询的数据仓库基础架构
7、Mahou:可扩展的机器学习和数据挖掘库‘
8、Pig:用于并行计算的高级数据流语言和执行框架
9、Spark:用于Hadoop数据的快速和通用计算引擎。spark提供了一个简单而富有表现力的编程模型,它支持广泛的应用程序,包括ETL(数据抽取、转换和加载)、机器学习、流处理和图计算。
10、Tez:一种基于Hadoop Yarn的通用数据流编程框架,它提供了一种强大而灵活的引擎,可以执行任意DAG任务来处理批处理和交互式用例的数据。
11、zookeeper:分布式应用程序的高性能协调服务
重要组件:
HDFS:Hadoop的分布式文件存储系统。
MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型。
Hive:基于Hadoop的类SQL数据仓库工具
Hbase:基于Hadoop的列式分布式NoSQL数据库
ZooKeeper:分布式协调服务组件
Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
Flume:日志采集工具
四、Hadoop的技术应用
1、数据服务基础平台建设
2、用户画像
3、网站点击流日志数据挖掘

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值