Hadoop常见面试题(一)

最新推荐文章于 2024-09-18 20:52:30 发布

shixuexiefo

最新推荐文章于 2024-09-18 20:52:30 发布

阅读量500

点赞数

文章标签： Hadoop面试题

本文链接：https://blog.csdn.net/shixuexiefo/article/details/82987009

版权

本文介绍了Hadoop的基本概念，包括HDFS、MapReduce和YARN，以及为何组织转向基于Hadoop的数据中心。Hadoop提供了一个可扩展且容错的平台，存储和处理大量结构化、非结构化和半结构化数据。它允许组织通过降低成本和提高处理速度，利用更丰富的数据源进行业务决策。此外，本文还讨论了基于Hadoop的数据中心带来的好处，如提高SLA、灵活性和探索新数据渠道的能力。

摘要由CSDN通过智能技术生成

1.什么是 Hadoop？
　　Hadoop 是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。总之，Hadoop 包括以下内容：
　　HDFS（Hadoop Distributed File System，Hadoop 分布式文件系统）：HDFS 允许你以一种分布式和冗余的方式存储大量数据。例如，1 GB（即 1024 MB）文本文件可以拆分为 16 * 128MB 文件，并存储在 Hadoop 集群中的 8 个不同节点上。每个分裂可以复制 3 次，以实现容错，以便如果 1 个节点故障的话，也有备份。HDFS 适用于顺序的“一次写入、多次读取”的类型访问。
　　　MapReduce：一个计算框架。它以分布式和并行的方式处理大量的数据。当你对所有年龄> 18 的用户在上述 1 GB 文件上执行查询时，将会有“8 个映射”函数并行运行，以在其 128 MB 拆分文件中提取年龄> 18 的用户，然后“reduce”函数将运行以将所有单独的输出组合成单个最终结果。

YARN（Yet Another Resource Nagotiator，又一资源定位器）：用于作业调度和集群资源管理的框架。

Hadoop 生态系统，拥有 15 多种框架和工具，如 Sqoop，Flume，Kafka，Pig，Hive，Spark，Impala 等，以便将数据摄入 HDFS，在 HDFS 中转移数据（即变换，丰富，聚合等），并查询来自 HDFS 的数据用于商业智能和分析。某些工具（如 Pig 和 Hive）是 MapReduce 上的抽象层，而 Spark 和 Impala 等其他工具则是来自 MapReduce 的改进架构/设计，用于显著提高的延迟以支持近实时（即 NRT）和实时处理。
　　2.为什么组织从传统的数据仓库工具转移到基于 Hadoop 生态系统的智能数据中心？

Hadoop 组织正在从以下几个方面提高自己的能力：

现有数据基础设施：

主要使用存储在高端和昂贵硬件中的“structured data，结构化数据”
主要处理为 ETL 批处理作业，用于将数据提取到 RDBMS 和数据仓库系统中进行数据挖掘，分析和报告，以进行关键业务决策。
主要处理以千兆字节到兆字节为单位的数据量
　　基于 Hadoop 的更智能的数据基础设施，其中

结构化（例如 RDBMS），非结构化（例如 images，PDF，docs ）和半结构化（例如 logs，XMLs）的数据可以以可扩展和容错的方式存储在较便宜的商品机器中。
可以通过批处理作业和近实时（即，NRT，200 毫秒至 2 秒）流（例如 Flume 和 Kafka）来摄取数据。
数据可以使用诸如 Spark 和 Impala 之类的工具以低延迟（即低于 100 毫秒）的能力查询。
可以存储以兆兆字节到千兆字节为单位的较大数据量。
　　这使得组织能够使用更强大的工具来做出更好的业务决策，这些更强大的工具用于获取数据，转移存储的数据（例如聚合，丰富，变换等&#x