Hadoop_大数据深度洞察的博客-CSDN博客

Hadoop

文章平均质量分 90

Hadoop专栏旨在提供全面的Hadoop知识体系，帮助读者从零开始学习到进阶，掌握Hadoop在大数据处理中的应用。本专栏将带领读者深入了解Hadoop的核心组件、生态系统中的重要工具，以及如何利用这些技术来解决实际的大数据问题。

文章数：14 文章阅读量：15581 文章收藏量：209

作者: 大数据深度洞察

一名大数据爱好者

展开

生产环境中MapReduce的最佳实践

重新设计Partitioner: 通过自定义Partitioner算法，使数据更均匀地分配给各个Reduce任务。使用哈希函数: 使用哈希函数将key映射到特定的Reduce任务上，避免所有相同key的数据都发送到同一个Reduce任务。

原创 2024-08-19 23:44:21 · 1485 阅读 · 1 评论
HDFS—集群迁移

/ 推 pushscp -r// 拉 pullscp -rroot@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

原创 2024-08-19 12:04:54 · 1066 阅读 · 0 评论
Hadoop之YARN客户端向ResourceManager提交作业

编写作业: 使用 MapReduce API 或其他支持的框架（如 Spark, Flink 等）编写应用程序。打包作业: 将应用程序及其依赖打包成 JAR 文件或其他格式的归档文件。配置参数: 设置作业的配置参数，例如资源需求、队列选择等。

原创 2024-08-18 16:27:22 · 814 阅读 · 0 评论
Hadoop之HDFS文件上传源码解析

为了在项目中使用 HDFS 的文件上传功能，我们需要添加以下依赖项到项目的构建配置文件中（例如 Maven 的。在这一节中，我们将详细探讨 HDFS 中文件创建的具体流程。类负责与 NameNode 和 DataNode 的通信。方法，该方法检查 NameNode 是否已启动，并调用。类，实现了具体的 HDFS 文件系统操作。DFSOutputStream.java 的。FSOutputSummer.java的。类提供了创建文件的基本接口。方法创建一个新的输出流实例，并启动。

原创 2024-08-18 16:02:56 · 962 阅读 · 0 评论
Hadoop之DataNode启动源码解析

DataNode类是 Hadoop 分布式文件系统 (HDFS) 中的一个核心组件，它负责存储文件系统的数据块。每个部署可以包含一个或多个DataNode实例。DataNode与NameNode通信以报告其存储状态，并响应来自NameNode的指令，如删除或复制块等操作。此外，DataNode还需要与客户端代码和其他DataNode进行交互。

原创 2024-08-17 22:31:50 · 597 阅读 · 0 评论
Hadoop之NameNode启动源码解析

NameNode类是 Hadoop 分布式文件系统 (HDFS) 的核心组件之一，负责管理文件系统的命名空间和元数据。每个 HDFS 部署中通常只有一个活动的NameNode（除了在使用备份/故障转移NameNode或联邦NameNode的情况下）。NameNode文件名到块序列映射（命名空间）。块到机器列表映射（节点表）。NameNode实现了接口，允许客户端请求文件系统服务；同时它还实现了接口，用于与存储实际数据块的DataNode进行通信。

原创 2024-08-17 22:16:20 · 992 阅读 · 0 评论
Hadoop 中的大数据技术：调优篇（2）

HDFS默认情况下，一个文件有3个副本，这虽然提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop 3.x引入了纠删码机制，通过计算方法，可以节省大约50%的存储空间。

原创 2024-08-16 12:37:00 · 1217 阅读 · 0 评论
Hadoop 中的大数据技术：调优篇（1）

NameNode内存计算每个文件块大约占用150字节。以一台服务器128GB内存为例，可以存储多少文件块？Hadoop 2.x系列，配置NameNode内存NameNode内存默认为2000MB，如果服务器内存为4GB，NameNode内存可以配置为3GB。在Hadoop 3.x系列，配置NameNode内存hadoop-env.sh中描述Hadoop的内存是动态分配的查看NameNode占用内存查看DataNode占用内存。

原创 2024-08-15 21:41:08 · 1179 阅读 · 0 评论
Hadoop 中的大数据技术：Yarn

本节将指导您如何配置公平调度器来创建两个队列，分别为test和lzl如果用户提交任务时指定了队列，则任务将在指定的队列中运行。如果用户未指定队列，test用户提交的任务将运行在队列中，而lzl用户提交的任务将运行在队列中。

原创 2024-08-15 13:01:32 · 968 阅读 · 0 评论
Hadoop 中的大数据技术：MapReduce（2）

Shuffle 是 MapReduce 处理流程中的一个关键阶段，位于 Map 函数之后和 Reduce 函数之前。在这个阶段，Map 任务的输出数据会被排序、分区，并传输给 Reduce 任务进行进一步处理。break;break;break;需求过滤输入的日志文件，将包含“lzl”的记录输出到e:/lzl.log，不含“lzl”的记录输出到。输入数据期望输出数据e:/lzl.log。

原创 2024-08-14 14:26:42 · 1470 阅读 · 0 评论
Hadoop 中的大数据技术：MapReduce（1）

MapReduce 是一个用于分布式计算的编程框架，它是 Hadoop 核心组件之一，主要用于开发分布式数据分析应用。MapReduce 的主要功能是将用户编写的业务逻辑代码与默认组件相结合，形成一个完整的分布式计算程序，并能够在 Hadoop 集群上并发执行。定义：序列化是指将内存中的对象转换为字节序列的过程，以便于存储或在网络中传输。反序列化：将接收到的字节序列还原为内存中的对象。实现Writable接口。提供无参构造函数：用于反序列化时的反射调用。重写序列化方法write()方法用于序列化。

原创 2024-08-13 23:29:13 · 1127 阅读 · 0 评论
Hadoop 中的大数据技术：HDFS（2）

Fsimage不记录块位置信息的设计增强了NameNode的灵活性，使得它能够在不影响整体系统的情况下调整块的位置和副本数量。

原创 2024-08-12 17:09:40 · 1227 阅读 · 0 评论
Hadoop 中的大数据技术：HDFS（1）

1.1 HDFS 的产出背景与定义HDFS 的产生缘由随着数据规模的持续增大，单个操作系统无法容纳全部数据，于是数据被分配至更多由操作系统管理的磁盘中。然而，这种方式在管理和维护上存在不便，急切需要一套系统对多台机器上的文件予以管理，分布式文件管理系统便应运而生。HDFS 只是此类系统中的一种。HDFS 的定义阐释HDFS（Hadoop Distributed File System），其作为一种文件系统，主要用于文件的存储，并借助目录树来对文件进行定位；

原创 2024-08-12 13:08:20 · 1275 阅读 · 0 评论
大数据技术之 Hadoop（入门详解）

各个模块分开启动/停止（配置 ssh 是前提）常用整体启动/停止 HDFS整体启动/停止 YARN各个服务组件逐一启动/停止分别启动/停止 HDFS 组件启动/停止 YARN。

原创 2024-08-11 19:59:57 · 1210 阅读 · 0 评论

Hadoop

作者: 大数据深度洞察

生产环境中MapReduce的最佳实践

HDFS—集群迁移

Hadoop之YARN客户端向ResourceManager提交作业

Hadoop之HDFS文件上传源码解析

Hadoop之DataNode启动源码解析

Hadoop之NameNode启动源码解析

Hadoop 中的大数据技术：调优篇（2）

Hadoop 中的大数据技术：调优篇（1）

Hadoop 中的大数据技术：Yarn

Hadoop 中的大数据技术：MapReduce（2）

Hadoop 中的大数据技术：MapReduce（1）

Hadoop 中的大数据技术：HDFS（2）

Hadoop 中的大数据技术：HDFS（1）

大数据技术之 Hadoop（入门详解）