Hadoop学习笔记（一）

最新推荐文章于 2024-09-04 11:40:27 发布

乐乐Gold

最新推荐文章于 2024-09-04 11:40:27 发布

阅读量150

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/leminfei/article/details/109462348

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要是由HDFS和MapReduce组成。

大数据解决四大核心问题：

1、数据的存储（Big Data Storage），HDFS

2、数据的计算（Data Calculation），MapReduce、Spark、Flink

3、数据的查询（Consensus Data）,Hbase

4、数据的挖掘（Data mining）,Hive、Impala、Pig

Hadoop生态系统包含：

1、HDFS（分布式文件系统）
2、MapReduce（分布式计算框架）
3、Spark（分布式计算框架，不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS）
4、Flink（分布式计算框架，类似于Spark，但在部分设计思想有较大出入。）
5、Yarn/Mesos（分布式资源管理器，YARN是下一代MapReduce，即MRv2）
6、Zookeeper（分布式协作服务，Hadoop的许多组件依赖于Zookeeper，它运行在计算机集群上面，用于管理Hadoop操作。）
7、Sqoop（数据同步工具，用于在关系数据库、数据仓库和Hadoop之间转移数据）
8、Hive/Impala（基于Hadoop的数据仓库工具，Hive通常用于离线分析，并不适合那些需要高实时性的应用）
9、HBase（分布式列存储数据库，HBase提供了对大规模数据的随机、实时读写访问）
10、Flume（日志收集工具）
11、Kafka（分布式消息队列，Kafka是一种高吞吐量的分布式发布订阅消息系统）
12、Oozie（工作流调度器）
13、Pig（数据分析平台，Pig是一个基于 Hadoop的大规模数据分析平台）