初识大数据，一文掌握大数据必备知识文集(3)

普修罗双战士

已于 2024-01-10 18:00:06 修改

阅读量1k

点赞数 17

分类专栏：大数据专栏文章标签：大数据 java

于 2023-12-23 09:33:28 首次发布

本文链接：https://blog.csdn.net/m0_50308467/article/details/135164698

版权

大数据专栏专栏收录该内容

20 篇文章 0 订阅

订阅专栏

在这里插入图片描述

🏆作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。
🏆多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。
🎉欢迎 👍点赞✍评论⭐收藏

🔎 大数据领域知识 🔎

链接	专栏
大数据专业知识学习一	大数据专栏
大数据专业知识学习二	大数据专栏
大数据专业知识学习三	大数据专栏
大数据专业知识学习四	大数据专栏
大数据专业知识学习五	大数据专栏
大数据专业知识学习六	大数据专栏
大数据专业知识学习七	大数据专栏
大数据专业知识学习八	大数据专栏
大数据专业知识学习九	大数据专栏
大数据专业知识学习十	大数据专栏
大数据专业知识学习十一	大数据专栏
大数据专业知识学习十二	大数据专栏
大数据专业知识学习十三	大数据专栏
大数据专业知识学习十四	大数据专栏
大数据专业知识学习十五	大数据专栏

🏆初识大数据应用知识

在这里插入图片描述

🔎一、初识大数据应用知识(3)

🍁 01、简述Hadoop、Spark、Storm、Hive的特点及使用场景？

Hadoop

Hadoop 是一个分布式文件系统，它提供了一个分布式文件系统和一个 MapReduce 框架。Hadoop 的特点是：

分布式：Hadoop 是一个分布式文件系统，它将数据分布在多个机器上，以提高数据的可靠性和可用性。
可靠性：Hadoop 使用了多副本机制来保证数据的可靠性。
可扩展性：Hadoop 可以扩展到数千台机器，以处理大量的数据。
容错性：Hadoop 可以容忍机器故障，不会影响整个系统的运行。

Hadoop 的使用场景包括：

大数据存储：Hadoop 可以存储大量的数据，并且可以保证数据的可靠性和可用性。
大数据分析：Hadoop 可以使用 MapReduce 框架来分析大数据。
大数据挖掘：Hadoop 可以使用 MapReduce 框架来挖掘大数据中的隐藏信息。

Spark

Spark 是一个分布式内存计算框架，它提供了一个弹性分布式数据集（RDD）和一个内存计算引擎。Spark 的特点是：

内存计算：Spark 使用内存计算，可以提高计算速度。
弹性：Spark 可以动态地增加或减少节点，以适应不同的计算需求。
容错性：Spark 可以容忍机器故障，不会影响整个系统的运行。

Spark 的使用场景包括：

大数据分析：Spark 可以使用内存计算来分析大数据。
大数据挖掘：Spark 可以使用内存计算来挖掘大数据中的隐藏信息。
实时数据处理：Spark 可以使用内存计算来处理实时数据。

Storm

Storm 是一个分布式实时计算框架，它提供了一个流式计算引擎。Storm 的特点是：

流式计算：Storm 可以处理实时数据。
可靠性：Storm 使用了多副本机制来保证数据的可靠性。
容错性：Storm 可以容忍机器故障，不会影响整个系统的运行。

Storm 的使用场景包括：

实时数据处理：Storm 可以处理实时数据。
大数据分析：Storm 可以使用流式计算来分析大数据。
机器学习：Storm 可以使用流式计算来训练机器学习模型。

Hive

Hive 是一个基于 Hadoop 的分布式数据仓库系统，它提供了一个 SQL 接口来访问 Hadoop 的数据。Hive 的特点是：

SQL 接口：Hive 提供了一个 SQL 接口，可以使用 SQL 来访问 Hadoop 的数据。
可扩展性：Hive 可以扩展到数千台机器，以处理大量的数据。
容错性：Hive 可以容忍机器故障，不会影响整个系统的运行。

Hive 的使用场景包括：

大数据分析：Hive 可以使用 SQL 来分析大数据。
大数据挖掘：Hive 可以使用 SQL 来挖掘大数据中的隐藏信息。
数据仓库：Hive 可以用来构建数据仓库。

🍁 02、Combine出现在哪个过程？

Combine 出现在 MapReduce 的 Map 阶段。在 Map 阶段，每个 Map 任务会对输入数据进行处理，并将处理结果写入到本地磁盘。Combine 是 Map 阶段的一个优化，它可以将 Map 任务的输出数据进行合并，减少 Map 任务的输出数据量。Combine 可以提高 Map 任务的执行效率。

Combine 的实现方式如下：

在 Map 任务的输出数据中，找到所有相同的键。
对每个相同的键，将所有对应的值进行合并。
将合并后的结果写入到本地磁盘。

Combine 可以提高 Map 任务的执行效率，因为它可以减少 Map 任务的输出数据量。Combine 的缺点是，它会增加 Map 任务的内存消耗。如果 Map 任务的内存不足，那么 Combine 可能会导致 Map 任务失败。

Combine 的使用场景如下：

当 Map 任务的输出数据量很大时，可以使用 Combine 来减少 Map 任务的输出数据量。
当 Map 任务的内存不足时，可以使用 Combine 来减少 Map 任务的内存消耗。
当 Map 任务的输出数据需要进行多次合并时，可以使用 Combine 来提高合并效率。

Combine 是一个非常重要的 MapReduce 优化技术。它可以提高 Map 任务的执行效率，降低 Map 任务的内存消耗，提高合并效率。

🍁 03、DataNode在什么情况下不会备份？

DataNode 在以下情况下不会备份：

当 DataNode 所在的节点处于离线状态时。
当 DataNode 所在的节点发生故障时。
当 DataNode 所在的节点被删除时。

在这些情况下，DataNode 的数据将不会被备份，并且可能会丢失。为了避免数据丢失，建议在 DataNode 所在的节点上配置自动备份功能。

自动备份功能可以通过以下方式配置：

在 DataNode 所在的节点上安装备份软件。
配置备份软件的配置文件。
启动备份软件。

备份软件会定期将 DataNode 的数据进行备份，以确保数据安全。

🍁 04、请列出你所知道的Hadoop调度器，并简要说明其工作方法？

Hadoop 有以下几种调度器：

FIFO 调度器：FIFO 调度器是 Hadoop 默认的调度器，它按照任务提交的顺序来执行任务。
Capacity 调度器：Capacity 调度器可以为不同的用户或组分配不同的资源配额，从而实现资源的公平分配。
Fair 调度器：Fair 调度器可以根据任务的优先级来执行任务，从而保证高优先级的任务能够得到及时的执行。
Priority 调度器：Priority 调度器可以根据任务的优先级来执行任务，从而保证高优先级的任务能够得到及时的执行。

以下是各个调度器的工作方法：

FIFO 调度器：FIFO 调度器按照任务提交的顺序来执行任务。如果有多个任务同时提交，那么 FIFO 调度器会先执行第一个任务，然后再执行第二个任务，以此类推。
Capacity 调度器：Capacity 调度器可以为不同的用户或组分配不同的资源配额。如果一个用户或组的任务需要的资源超过了其配额，那么 Capacity 调度器会等待该用户或组的其他任务完成，或者等待其他用户或组的任务释放资源，然后再执行该用户或组的任务。
Fair 调度器：Fair 调度器可以根据任务的优先级来执行任务。如果有多个任务同时提交，那么 Fair 调度器会先执行优先级最高的任务，然后再执行优先级较低的任务。
Priority 调度器：Priority 调度器可以根据任务的优先级来执行任务。如果有多个任务同时提交，那么 Priority 调度器会先执行优先级最高的任务，然后再执行优先级较低的任务。

🍁 05、Hadoop安装在什么目录下？

Hadoop 安装在以下目录下：

/usr/local/hadoop：这是 Hadoop 的主目录。
/usr/local/hadoop/etc：这是 Hadoop 的配置目录。
/usr/local/hadoop/bin：这是 Hadoop 的二进制目录。
/usr/local/hadoop/lib：这是 Hadoop 的库目录。
/usr/local/hadoop/logs：这是 Hadoop 的日志目录。
/usr/local/hadoop/tmp：这是 Hadoop 的临时目录。

以下是各个目录的详细说明：

/usr/local/hadoop：这是 Hadoop 的主目录。它包含了 Hadoop 的所有文件，包括配置文件、二进制文件、库文件、日志文件和临时文件。
/usr/local/hadoop/etc：这是 Hadoop 的配置目录。它包含了 Hadoop 的所有配置文件。
/usr/local/hadoop/bin：这是 Hadoop 的二进制目录。它包含了 Hadoop 的所有二进制文件。
/usr/local/hadoop/lib：这是 Hadoop 的库目录。它包含了 Hadoop 的所有库文件。
/usr/local/hadoop/logs：这是 Hadoop 的日志目录。它包含了 Hadoop 的所有日志文件。
/usr/local/hadoop/tmp：这是 Hadoop 的临时目录。它包含了 Hadoop 的所有临时文件。

🍁 06、Kafka 各组件介绍？

Kafka 是一个分布式消息系统，它由以下几个组件组成：

Kafka 集群：Kafka 集群由一组 Kafka 节点组成，每个节点都运行着 Kafka 服务器。
Kafka 客户端：Kafka 客户端是用来发送和接收消息的应用程序。
Kafka 主题：Kafka 主题是一个逻辑上的分区集合，用于存储消息。
Kafka 分区：Kafka 分区是一个物理上的文件，用于存储主题中的消息。
Kafka 消费者组：Kafka 消费者组是一组消费者，它们共同消费一个主题或多个主题中的消息。

以下是 Kafka 各组件的详细介绍：

Kafka 集群：Kafka 集群由一组 Kafka 节点组成，每个节点都运行着 Kafka 服务器。Kafka 服务器负责存储和处理消息。Kafka 集群可以由一台机器组成，也可以由多台机器组成。
Kafka 客户端：Kafka 客户端是用来发送和接收消息的应用程序。Kafka 客户端可以是 Java 客户端、C++ 客户端、Python 客户端等。
Kafka 主题：Kafka 主题是一个逻辑上的分区集合，用于存储消息。每个主题都有一个唯一的名称，并且可以有多个分区。Kafka 主题可以用来存储任何类型的消息，包括文本、二进制数据、图像等。
Kafka 分区：Kafka 分区是一个物理上的文件，用于存储主题中的消息。每个分区都有一个唯一的编号，并且可以存储多个消息。Kafka 分区可以分布在多个 Kafka 节点上，以实现数据的高可用性和扩展性。
Kafka 消费者组：Kafka 消费者组是一组消费者，它们共同消费一个主题或多个主题中的消息。Kafka 消费者组可以保证消息的顺序消费，并且可以实现负载均衡。

Kafka 是一个非常强大的分布式消息系统，它可以用于各种不同的应用场景，例如日志收集、实时分析、流式处理等。

🍁 07、Spark调优策略有哪些？

Spark 的调优策略主要包括以下几个方面：

资源调度：Spark 可以根据任务的资源需求，动态地分配资源。Spark 的资源调度器有两种：FIFO 调度器和 Fair 调度器。FIFO 调度器按照任务提交的顺序来执行任务，Fair 调度器可以根据任务的优先级来执行任务。
数据分区：Spark 可以将数据分区到多个节点上，以提高数据并行处理的效率。Spark 的数据分区有两种：静态分区和动态分区。静态分区是在 Spark 作业提交之前进行的，动态分区是在 Spark 作业运行期间进行的。
内存管理：Spark 可以使用内存来缓存数据和中间结果。Spark 的内存管理有两种：堆内存和堆外内存。堆内存是 Spark 应用程序可以直接访问的内存，堆外内存是 Spark 应用程序无法直接访问的内存。
序列化：Spark 可以使用序列化来将对象转换为字节流。Spark 的序列化有两种：Java 序列化和 Kryo 序列化。Java 序列化是 Java 语言内置的序列化方式，Kryo 序列化是一个高性能的序列化方式。
优化算法：Spark 可以对算法进行优化，以提高算法的执行效率。Spark 的优化算法包括：分布式聚合、分布式外部排序、分布式广播、分布式缓存等。

通过以上这些调优策略，可以提高 Spark 的执行效率。

🍁 08、RAM的溢出因子是什么？

RAM 的溢出因子（spill factor）是指在 MapReduce 中，当 Map 任务的输出数据量超过内存容量时，需要将数据溢写到磁盘的比例。溢出因子越大，需要溢写的数据越多，磁盘 I/O 的开销越大。溢出因子越小，需要溢写的数据越少，磁盘 I/O 的开销越小。

默认情况下，MapReduce 的溢出因子为 1.0。这意味着，当 Map 任务的输出数据量超过内存容量时，需要将 100% 的数据溢写到磁盘。如果 Map 任务的输出数据量很大，那么磁盘 I/O 的开销会很大。

可以通过以下方式设置 MapReduce 的溢出因子：

mapreduce.map.output.spill.percent

该配置项的取值范围为 0.0 到 1.0。当该配置项的值为 0.0 时，Map 任务的输出数据不会溢写到磁盘。当该配置项的值为 1.0 时，Map 任务的输出数据会全部溢写到磁盘。

建议根据实际情况设置 MapReduce 的溢出因子。如果 Map 任务的输出数据量很大，可以将溢出因子设置为较小的值，以减少磁盘 I/O 的开销。如果 Map 任务的输出数据量很小，可以将溢出因子设置为较大的值，以提高 Map 任务的执行效率。

🍁 09、Hive的sql知识点有哪些？

Hive 是基于 Hadoop 的一个数据仓库管理系统，它提供了 SQL 接口来访问 Hadoop 的数据。Hive 的 SQL 知识点主要包括以下几个方面：

数据类型：Hive 支持的数据类型包括字符串、整数、浮点数、日期时间等。
表结构：Hive 的表结构包括表名、列名、列类型、列默认值等。
查询语句：Hive 的查询语句包括 SELECT、FROM、WHERE、GROUP BY、ORDER BY 等。
聚合函数：Hive 支持的聚合函数包括 SUM、AVG、COUNT、MIN、MAX 等。
窗口函数：Hive 支持的窗口函数包括 SUM、AVG、COUNT、MIN、MAX 等。
分区表：Hive 支持分区表，可以根据不同的条件将数据分区到不同的文件中，以提高查询效率。
外部表：Hive 支持外部表，可以将数据存储在外部文件系统中，以提高数据的可访问性。
存储过程：Hive 支持存储过程，可以将复杂的查询语句封装成存储过程，以提高代码的可重用性。
触发器：Hive 支持触发器，可以根据特定的条件自动执行某些操作，以提高数据的处理效率。

通过学习这些 Hive 的 SQL 知识点，可以熟练使用 Hive 来管理和处理数据。

🍁 10、Hive的分区有哪些，详细介绍一下其分区？

Hive 的分区有以下几种：

静态分区：静态分区是在创建表时指定的，在表创建之后不能修改。
动态分区：动态分区是在表创建之后指定的，可以动态修改。
局部分区：局部分区是指在表的某些列上进行分区，这些列的数据可以是字符串、整数、浮点数等。
全局分区：全局分区是指在表的所有列上进行分区，这些列的数据必须是日期时间类型。

以下是 Hive 分区的详细介绍：

静态分区：静态分区是在创建表时指定的，在表创建之后不能修改。静态分区可以提高查询效率，因为可以将数据分布到不同的文件中，从而减少数据扫描的范围。
动态分区：动态分区是在表创建之后指定的，可以动态修改。动态分区可以提高数据灵活性，因为可以根据业务需求动态调整分区。
局部分区：局部分区是指在表的某些列上进行分区，这些列的数据可以是字符串、整数、浮点数等。局部分区可以提高查询效率，因为可以将数据分布到不同的文件中，从而减少数据扫描的范围。
全局分区：全局分区是指在表的所有列上进行分区，这些列的数据必须是日期时间类型。全局分区可以提高数据灵活性，因为可以根据业务需求动态调整分区。

在实际使用中，可以根据业务需求选择合适的分区方式。如果需要提高查询效率，可以使用静态分区或局部分区。如果需要提高数据灵活性，可以使用动态分区或全局分区。

🍁 11、当前日志采样格式是什么？

当前日志采样格式是 JSON 格式。JSON 格式是一种轻量级的数据交换格式，它可以用来表示任意类型的数据。JSON 格式易于理解和编写，并且可以被各种编程语言解析。

日志采样是指从日志中抽取一部分数据进行分析。日志采样可以帮助我们快速了解日志中的数据分布情况，并发现异常数据。

JSON 格式是日志采样最常用的格式。因为 JSON 格式可以用来表示任意类型的数据，所以我们可以使用 JSON 格式来表示日志中的任何字段。

以下是一个简单的日志采样示例：

{
  "timestamp": "2023-03-08T10:00:00Z",
  "level": "INFO",
  "message": "This is an example log message."
}

这个日志采样包含了三个字段：timestamp、level 和 message。timestamp 字段表示日志的时间戳，level 字段表示日志的级别，message 字段表示日志的内容。

JSON 格式是日志采样最常用的格式，因为它可以用来表示任意类型的数据。JSON 格式易于理解和编写，并且可以被各种编程语言解析。

🍁 12、Namenode、Job tracker和Task tracker的端口号分别是什么？

Namenode 的端口号为 8020，Job tracker 的端口号为 8030，Task tracker 的端口号为 8040。

Namenode 是 Hadoop 集群的元数据管理器，负责管理文件系统的元数据，包括文件的名称、大小、权限等。Namenode 的端口号为 8020。

Job tracker 是 Hadoop 集群的任务调度器，负责调度 MapReduce 任务的执行。Job tracker 的端口号为 8030。

Task tracker 是 Hadoop 集群的任务执行器，负责执行 MapReduce 任务。Task tracker 的端口号为 8040。

Namenode、Job tracker 和 Task tracker 是 Hadoop 集群中的重要组件，它们共同负责 Hadoop 集群的文件系统管理和任务调度。

🍁 13、为什么要用flume导入hdfs，hdfs的构架是怎样的？

Flume 是一个分布式数据收集系统，它可以从各种来源收集数据，并将数据传输到不同的目的地。HDFS 是一个分布式文件系统，它可以存储大量的数据。Flume 可以将数据导入 HDFS，以便在 HDFS 中进行存储和管理。

Flume 导入 HDFS 有以下几个优点：

可以从各种来源收集数据，包括日志文件、数据库、网络流等。
可以将数据传输到不同的目的地，包括 HDFS、Kafka、HBase 等。
可以对数据进行过滤和转换，以便在 HDFS 中进行存储和管理。

HDFS 的构架如下：

Namenode：Namenode 是 HDFS 的元数据管理器，它负责管理文件系统的元数据，包括文件的名称、大小、权限等。
Datanode：Datanode 是 HDFS 的存储节点，它负责存储文件的数据。
Secondary Namenode：Secondary Namenode 是 Namenode 的备份，它负责定期从 Namenode 同步元数据。

HDFS 是一个非常强大的分布式文件系统，它可以存储大量的数据。Flume 可以将数据导入 HDFS，以便在 HDFS 中进行存储和管理。

🍁 14、Redis，传统数据库，Hbase，Hive每个之间的区别？

Redis、传统数据库（如MySQL）、HBase 和 Hive 是不同类型的数据存储系统，它们在数据模型、用途和特点上有所区别。

Redis:
- 数据模型：Redis 是基于键值对的内存数据库，支持多种数据结构（字符串、哈希、列表、集合、有序集合等）。
- 用途：Redis 主要用于缓存、会话存储、实时数据分析和消息队列等场景。
- 特点：Redis 具有高性能、低延迟的特点，适合处理高并发读写操作；支持持久化和主从复制，可提供数据的持久性和高可用性。
传统数据库（如MySQL）:
- 数据模型：传统数据库采用关系型数据模型，数据以表格的形式存储，具有严格的结构和约束。
- 用途：传统数据库适用于事务处理和复杂查询等场景，支持 SQL 查询语言。
- 特点：传统数据库具有数据一致性、完整性和持久性等特点，适用于需要严格数据结构和 ACID 事务支持的应用。
HBase:
- 数据模型：HBase 是一个分布式列存储数据库，数据以表格的形式存储，支持动态列族。
- 用途：HBase 适用于海量数据的存储和实时读写访问，常用于大数据分析、日志处理和实时数据处理等场景。
- 特点：HBase 具有高扩展性、高可用性和高吞吐量的特点，适合处理大规模数据和高并发访问。
Hive:
- 数据模型：Hive 是基于 Hadoop 的数据仓库系统，采用类似于传统数据库的表格模型，支持结构化数据。
- 用途：Hive 适用于大规模数据的批量处理和分析，支持 SQL 查询语言。
- 特点：Hive 提供了类似于传统数据库的查询语言和元数据管理，可用于数据仓库和大数据分析。

总结来说，Redis 是一个内存数据库，适用于高性能、低延迟的场景；传统数据库适用于事务处理和复杂查询；HBase 是一个分布式列存储数据库，适合海量数据的存储和实时访问；Hive 是基于 Hadoop 的数据仓库系统，适用于大规模数据的批量处理和分析。选择适合的数据存储系统取决于具体的应用需求和数据处理场景。

以下是 Redis、传统数据库（如MySQL）、HBase 和 Hive 之间的区别的表格说明：

	数据模型	用途	特点
Redis	键值对	缓存、会话存储、实时数据分析、消息队列等	- 高性能、低延迟 - 多种数据结构支持 - 持久化和主从复制
传统数据库	关系型数据	事务处理、复杂查询等	- 严格的结构和约束 - 支持 SQL 查询语言 - 数据一致性、完整性和持久性
HBase	列存储	大数据分析、日志处理、实时数据处理等	- 高扩展性、高可用性 - 高吞吐量 - 适合海量数据存储和实时读写访问
Hive	表格	大规模数据的批量处理和分析	- 基于 Hadoop 的数据仓库系统 - 支持 SQL 查询语言 - 适用于数据仓库和大数据分析

这个表格说明了 Redis、传统数据库、HBase 和 Hive 在数据模型、用途和特点上的区别。根据具体的应用需求和数据处理场景，选择适合的数据存储系统。

🍁 15、当你输入Hadoopfsck 造成"connection refused java exception"时，系统究竟发生了什么？

当输入"Hadoopfsck"命令并出现"connection refused java exception"的错误时，这通常意味着无法建立与 Hadoop 集群的连接。这可能是由以下原因导致的：

Hadoop 服务未启动：Hadoopfsck 命令需要与 Hadoop 集群的相关服务进行通信，例如 NameNode。如果这些服务未启动，将无法建立连接。
网络问题：连接被拒绝可能是由于网络问题，例如防火墙阻止了与 Hadoop 集群的通信，或者网络连接不稳定。
配置问题：Hadoopfsck 命令需要正确的配置信息才能与 Hadoop 集群进行通信。如果配置文件中的参数不正确或缺失，可能导致连接被拒绝。

为了解决这个问题，可以采取以下步骤：

检查 Hadoop 服务：确保 Hadoop 集群的相关服务（例如 NameNode）已启动。可以使用命令行或 Hadoop 管理界面来检查服务的状态。
检查网络连接：确保网络连接正常，并且没有任何防火墙或网络配置导致连接被拒绝。可以尝试通过 telnet 命令测试与 Hadoop 集群的连接。
检查配置文件：检查 Hadoopfsck 命令使用的配置文件，确保其中的参数正确设置。特别注意与网络连接相关的配置，如 NameNode 的主机名和端口等。

如果问题仍然存在，可以查看详细的错误日志以获取更多信息，以便进一步诊断和解决连接问题。

在这里插入图片描述

普修罗双战士

关注

17
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
初识大数据，一文掌握大数据必备知识文集(3)

Kafka 集群：Kafka 集群由一组 Kafka 节点组成，每个节点都运行着 Kafka 服务器。Kafka 客户端：Kafka 客户端是用来发送和接收消息的应用程序。Kafka 主题：Kafka 主题是一个逻辑上的分区集合，用于存储消息。Kafka 分区：Kafka 分区是一个物理上的文件，用于存储主题中的消息。Kafka 消费者组：Kafka 消费者组是一组消费者，它们共同消费一个主题或多个主题中的消息。Kafka 集群。
复制链接

扫一扫