什么是Hadoop?

定义:

一款以HDFS(Hadoop Distributed File System)作为其分布式存储、以MapReduce编程模型作为其处理核心的应对海量数据的开源软件框架。它运行在由普通商用机构建而成的硬件集群之上。简单流程:Hadoop将数据存储文件分割成大的数据块,并将其分发至集群环境中所有的节点。然后再将打包好的应用处理代码分发到集群节点上,对数据进行并行处理。

Hadoop基础模块
- Hadoop Common–基础类库、工具包,供其他Hadoop模块使用
- Hadoop Distributed File System(HDFS)–分布式文件存储系统
- Hadoop YARN–资源管理系统,负责集群上的计算资源,并调度该资源去运行用户的应用处理代码
- Hadoop MapReduce–MapReduce编程模型的一种实现,负责海量数据的处理

Hadoop不限于上述提到的模块,它也指一个生态。在这个生态之上,能够运行Apache Pig、Apache Hive、Apache HBase、Apache Phoenix、Apache Spark、Apache Zookeeper、Cloudera Impala,Apache Flume、Apache Sqoop、Apache Oozie、Apache Storm等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值