Hadoop 面试题（二）

最新推荐文章于 2024-07-03 14:44:32 发布

依邻依伴

最新推荐文章于 2024-07-03 14:44:32 发布

阅读量593

点赞数 28

分类专栏：大数据面试题文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/jianing1018/article/details/139813623

版权

大数据面试题专栏收录该内容

56 篇文章 1 订阅

订阅专栏

1. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?

在一个正常工作的Hadoop集群中，需要启动多个关键进程以保证集群功能的正常运行。以下是这些主要进程及其作用：

NameNode：
- 管理HDFS的命名空间和客户端对文件的访问，存储文件系统的元数据。
DataNode：
- 在HDFS中存储实际的数据块，执行数据块的读写操作，并定期向NameNode发送心跳和块报告。
ResourceManager（YARN）：
- 负责管理集群资源和调度作业，分配计算资源给各个任务。
NodeManager（YARN）：
- 在每个工作节点上运行，监控节点的健康状况，执行任务，并报告资源使用情况给ResourceManager。
Secondary NameNode（Hadoop 1.x）：
- 辅助NameNode，周期性合并EditLog和FsImage，减轻NameNode的负担。
Standby NameNode（Hadoop 2.x及更高版本）：
- 作为Active NameNode的备份，提供故障转移功能。
JournalNode（Hadoop HA配置）：
- 在HDFS的高可用性配置中，存储NameNode的状态信息，使得多个NameNode可以共享状态。
ZooKeeper（Hadoop HA配置）：
- 管理ResourceManager和NameNode的选举，确保ResourceManager和Active NameNode的高可用性。
HDFS Client：
- 客户端库，用于访问HDFS，执行文件读写操作。
YARN Client：
- 客户端库，用于提交MapReduce作业和其他计算任务。
MapReduce JobTracker（Hadoop 1.x）：
- 负责作业的调度和监控，已被YARN的ResourceManager取代。
HistoryServer（MapReduce）：
- 记录已完成作业的历史信息，供用户查询。
HBase Master 和 HBase RegionServer（如果使用HBase）：
- HBase Master管理表和区域的元数据，HBase RegionServer负责存储和处理表数据。
Hive Metastore（如果使用Hive）：
- 存储Hive表的元数据信息。
Oozie Server（如果使用Oozie）：
- 工作流调度器，用于管理Hadoop作业的执行。
Flume Agent（如果使用Flume）：
- 用于数据的收集和传输。
Kafka Broker（如果使用Kafka）：
- 消息队列系统，用于数据的发布和订阅。
Spark Master 和 Spark Worker（如果使用Spark）：
- Spark Master负责作业调度，Spark Worker执行计算任务。

这些进程构成了Hadoop生态系统的基础，使得Hadoop集群能够高效地存储、管理和处理大规模数据集。根据集群的具体配置和所运行的应用程序，可能还需要启动其他相关的服务和守护进程。

2. 简述Hadoop序列化和反序列化及自定义bean对象实现序列化？

在Hadoop中，序列化是将对象状态转换为可以存储或传输的格式的过程，而反序列化是将序列化后的数据恢复为对象的过程。Hadoop提供了自己的序列化机制，用于高效地处理大量数据的读写操作。

Hadoop序列化和反序列化：

Writable接口：
- Hadoop提供了Writable接口，任何想要被Hadoop框架序列化和反序列化的类都必须实现这个接口。
序列化：
- 序列化过程涉及到将对象的字段转换为字节流。Writable接口的write(DataOutput out)方法用于将对象状态写入到DataOutput流。
反序列化：
- 反序列化过程涉及到从字节流中恢复对象状态。Writable接口的readFields(DataInput in)方法用于从DataInput流中读取数据并恢复对象状态。
配置：
- 在Job配置中，可以通过job.setOutputKeyClass()和job.setOutputValueClass()等方法设置序列化类。
性能：
- Hadoop的序列化机制针对大量数据进行了优化，比Java默认的序列化机制更高效。
跨语言：
- 除了Java，Hadoop还支持其他语言编写的MapReduce程序，如C++、Python等，它们可以使用Hadoop的序列化机制。

自定义bean对象实现序列化：

如果你有一个自定义的Java bean对象，并希望在Hadoop中使用它，你需要让它实现Writable接口：

import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class MyBean implements Writable {
    private int id;
    private String name;

    // 无参构造函数
    public MyBean() {}

    // 实现序列化方法
    public void write(DataOutput out) throws IOException {
        out.writeInt(id);
        Text.writeString(out, name); // 假设name是String类型
    }

    // 实现反序列化方法
    public void readFields(DataInput in) throws IOException {
        id = in.readInt();
        name = Text.readString(in); // 假设name是String类型
    }

    // getter和setter方法
    public int getId() { return id; }
    public void setId(int id) { this.id = id; }
    public String getName() { return name; }
    public void setName(String name) { this.name = name; }
}

在上面的示例中，MyBean类实现了Writable接口，并提供了write和readFields方法来序列化和反序列化对象的状态。注意，这里使用了Text.writeString和Text.readString来处理String类型的序列化和反序列化，因为Hadoop提供了Text类来优化String的读写操作。

实现自定义序列化后，你可以在MapReduce程序中使用MyBean类作为输入输出类型，Hadoop框架会自动处理序列化和反序列化的工作。

3. 简述Hadoop的checkpoint流程？

在Hadoop中，checkpoint流程主要与HDFS的NameNode相关，用于确保NameNode状态的一致性和可靠性。以下是checkpoint流程的简要概述：

触发Checkpoint：
- Checkpoint是一个周期性运行的过程，可以由管理员手动触发，或者根据配置的时间间隔自动触发。
辅助节点角色：
- 在Hadoop 1.x中，Secondary NameNode负责执行checkpoint操作。在Hadoop 2.x及更高版本中，checkpoint由Standby NameNode或Checkpoint Node执行。
获取命名空间镜像：
- 辅助节点从主NameNode获取当前的FsImage（命名空间的镜像）和EditLog。
合并操作：
- 辅助节点将EditLog中的更改应用到FsImage上，创建一个新的命名空间镜像。
生成新的FsImage：
- 应用EditLog中的更改后，辅助节点生成一个新的FsImage，这个新的FsImage代表了文件系统的当前状态。
传输新的FsImage：
- 辅助节点将更新后的FsImage发送回主NameNode。
替换旧的FsImage：
- 主NameNode使用新的FsImage替换旧的FsImage，同时保留旧的FsImage作为备份。
清理EditLog：
- 主NameNode清理旧的EditLog，因为所有的更改已经合并到新的FsImage中。
减少内存压力：
- 通过checkpoint流程，可以减少主NameNode的内存压力，因为它不再需要存储大量的EditLog记录。
提高故障恢复速度：
- 在NameNode故障时，可以使用最新的FsImage快速恢复文件系统状态，而不需要从大量的EditLog记录中重放操作。
配置和优化：
- 管理员可以根据集群的负载和性能需求，配置checkpoint的频率和辅助节点的资源使用，以优化checkpoint流程。

Checkpoint流程是Hadoop HDFS中确保NameNode状态一致性和可靠性的重要机制。通过定期执行checkpoint，可以有效地管理NameNode的内存和存储资源，提高系统的稳定性和性能。

4. 简述Hadoop的默认块大小是多少？为什么要设置这么大？

Hadoop的默认块大小在不同版本的Hadoop中有所不同：

在Hadoop 1.x版本中，默认的块大小是64MB。
从Hadoop 2.x版本开始，默认的块大小增加到了128MB。

块大小的设置考虑了以下几个因素：

传输效率：
- 较大的块大小可以减少寻址时间在总传输时间中的占比，从而提高数据传输效率。
网络利用率：
- 大块数据在网络中的传输可以更有效地利用网络带宽，减少因频繁的小数据包传输而产生的开销。
磁盘I/O：
- 较大的块大小可以减少磁盘I/O操作的次数，因为每次读写操作可以处理更多的数据。
存储效率：
- 块大小为2的幂次可以优化存储分配，减少存储空间的浪费。
硬件性能：
- 随着硬件性能的提升，特别是磁盘传输速率的增加，较大的块大小可以更好地匹配硬件性能。
数据局部性：
- 在MapReduce作业中，数据块越大，越有可能在一个Map任务中处理更多的数据，从而提高数据局部性。
系统开销：
- 较大的块大小减少了NameNode需要维护的元数据量，降低了系统开销。
最佳传输损耗理论：
- 根据最佳传输损耗理论，当寻址时间占总传输时间的1%时，传输效率最高。对于100MB/s的磁盘写入速度，寻址时间约为10ms，因此128MB的块大小是一个合适的选择。

综上所述，Hadoop的块大小设置是为了在大规模数据集上实现高效的数据存储和处理。然而，块大小可以根据具体的应用场景和硬件配置进行调整，以达到最优的性能。

5. 简述Hadoop Block划分的原因？

Hadoop分布式文件系统中的Block划分原因主要包括以下几点：

大规模数据处理：
- Hadoop设计用于处理大规模数据集。通过将文件分割成多个Block，可以有效地在多个节点上并行处理这些数据。
数据并行性：
- Block划分允许MapReduce等框架在不同的节点上并行处理文件的不同部分，从而提高数据处理速度。
容错能力：
- 每个Block可以有多个副本分布在不同的DataNode上，这样即使某些节点发生故障，数据仍然可以从其他副本中恢复，增强了系统的容错性。
数据局部性优化：
- Block划分有助于优化数据局部性，使得计算任务可以尽可能在存储数据的节点上执行，减少了数据传输的需要，提高了效率。
存储效率：
- 较大的Block大小可以减少NameNode需要维护的元数据数量，从而减轻了NameNode的内存压力。
灵活的数据恢复：
- 当数据Block损坏或丢失时，可以通过其他副本快速恢复，而不需要重新存储整个文件。
负载均衡：
- Block划分有助于在集群中均衡数据存储和处理负载，避免某些节点过载而其他节点空闲。
简化存储管理：
- 将文件分割成固定大小的Block简化了存储管理，因为每个Block可以独立存储和复制。
适应不同的存储介质：
- 不同的存储介质（如SSD、HDD）可能对数据块的最佳大小有不同的要求，Block划分提供了适应不同存储介质的能力。
支持数据压缩：
- Block级别的数据压缩可以在不损失数据可分割性的前提下，减少存储需求和传输时间。

通过Block划分，Hadoop能够提供高效的数据存储、处理和管理机制，特别适合于大规模分布式计算环境。

6. 简述Hadoop常见的压缩算法？

Hadoop支持多种压缩算法来减少存储空间的使用和提高I/O效率。以下是Hadoop中常见的一些压缩算法：

Gzip：
- Gzip是一种广泛使用的压缩工具，它使用LZ77算法作为其压缩引擎。Gzip压缩率较高，但压缩和解压速度相对较慢。
Bzip2：
- Bzip2使用Burrows-Wheeler变换算法，通常提供比Gzip更高的压缩率，但压缩和解压速度也更慢。
Snappy：
- Snappy是Google开发的一种压缩算法，专为压缩速度而优化。它提供了非常高的压缩和解压速度，但相比Gzip和Bzip2，压缩率较低。
LZO (Lempel-Ziv-Oberhumer)：
- LZO是一种非常高效的压缩算法，压缩和解压速度都很快，但提供的压缩率不如Gzip和Bzip2。
LZ4：
- LZ4是另一种高效的压缩算法，由LZ77派生而来。它提供了比Snappy更高的压缩率，同时保持了高速的压缩和解压性能。
Zlib：
- Zlib是一个提供数据压缩功能的库，支持多种压缩算法，包括LZ77。它通常比Gzip慢，但提供了更多的压缩级别选项。
Deflate：
- Deflate是Zlib库中使用的一种压缩算法，也是Gzip的底层算法。Deflate可以提供不同的压缩级别，但速度较慢。
XZ：
- XZ（或LZMA）是一种较新的压缩算法，提供了极高的压缩率，但速度较慢，适用于不经常访问的大型数据集。
ORC/Parquet压缩：
- 虽然ORC（Optimized Row Columnar）和Parquet不是压缩算法，但它们是列式存储格式，内置了压缩功能，可以与Snappy、LZO、Zlib等算法一起使用。