Hadoop
文章平均质量分 90
Hadoop专栏旨在提供全面的Hadoop知识体系,帮助读者从零开始学习到进阶,掌握Hadoop在大数据处理中的应用。本专栏将带领读者深入了解Hadoop的核心组件、生态系统中的重要工具,以及如何利用这些技术来解决实际的大数据问题。
大数据深度洞察
一名大数据爱好者
展开
-
生产环境中MapReduce的最佳实践
重新设计Partitioner: 通过自定义Partitioner算法,使数据更均匀地分配给各个Reduce任务。使用哈希函数: 使用哈希函数将key映射到特定的Reduce任务上,避免所有相同key的数据都发送到同一个Reduce任务。原创 2024-08-19 23:44:21 · 1485 阅读 · 1 评论 -
HDFS—集群迁移
/ 推 pushscp -r// 拉 pullscp -rroot@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。原创 2024-08-19 12:04:54 · 1066 阅读 · 0 评论 -
Hadoop之YARN客户端向ResourceManager提交作业
编写作业: 使用 MapReduce API 或其他支持的框架(如 Spark, Flink 等)编写应用程序。打包作业: 将应用程序及其依赖打包成 JAR 文件或其他格式的归档文件。配置参数: 设置作业的配置参数,例如资源需求、队列选择等。原创 2024-08-18 16:27:22 · 814 阅读 · 0 评论 -
Hadoop之HDFS文件上传源码解析
为了在项目中使用 HDFS 的文件上传功能,我们需要添加以下依赖项到项目的构建配置文件中(例如 Maven 的。在这一节中,我们将详细探讨 HDFS 中文件创建的具体流程。类负责与 NameNode 和 DataNode 的通信。方法,该方法检查 NameNode 是否已启动,并调用。类,实现了具体的 HDFS 文件系统操作。DFSOutputStream.java 的。FSOutputSummer.java的。类提供了创建文件的基本接口。方法创建一个新的输出流实例,并启动。原创 2024-08-18 16:02:56 · 962 阅读 · 0 评论 -
Hadoop之DataNode启动源码解析
DataNode类是 Hadoop 分布式文件系统 (HDFS) 中的一个核心组件,它负责存储文件系统的数据块。每个部署可以包含一个或多个DataNode实例。DataNode与NameNode通信以报告其存储状态,并响应来自NameNode的指令,如删除或复制块等操作。此外,DataNode还需要与客户端代码和其他DataNode进行交互。原创 2024-08-17 22:31:50 · 597 阅读 · 0 评论 -
Hadoop之NameNode启动源码解析
NameNode类是 Hadoop 分布式文件系统 (HDFS) 的核心组件之一,负责管理文件系统的命名空间和元数据。每个 HDFS 部署中通常只有一个活动的NameNode(除了在使用备份/故障转移NameNode或联邦NameNode的情况下)。NameNode文件名到块序列映射(命名空间)。块到机器列表映射(节点表)。NameNode实现了接口,允许客户端请求文件系统服务;同时它还实现了接口,用于与存储实际数据块的DataNode进行通信。原创 2024-08-17 22:16:20 · 992 阅读 · 0 评论 -
Hadoop 中的大数据技术:调优篇(2)
HDFS默认情况下,一个文件有3个副本,这虽然提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop 3.x引入了纠删码机制,通过计算方法,可以节省大约50%的存储空间。原创 2024-08-16 12:37:00 · 1217 阅读 · 0 评论 -
Hadoop 中的大数据技术:调优篇(1)
NameNode内存计算每个文件块大约占用150字节。以一台服务器128GB内存为例,可以存储多少文件块?Hadoop 2.x系列,配置NameNode内存NameNode内存默认为2000MB,如果服务器内存为4GB,NameNode内存可以配置为3GB。在Hadoop 3.x系列,配置NameNode内存hadoop-env.sh中描述Hadoop的内存是动态分配的查看NameNode占用内存查看DataNode占用内存。原创 2024-08-15 21:41:08 · 1179 阅读 · 0 评论 -
Hadoop 中的大数据技术:Yarn
本节将指导您如何配置公平调度器来创建两个队列,分别为test和lzl如果用户提交任务时指定了队列,则任务将在指定的队列中运行。如果用户未指定队列,test用户提交的任务将运行在队列中,而lzl用户提交的任务将运行在队列中。原创 2024-08-15 13:01:32 · 968 阅读 · 0 评论 -
Hadoop 中的大数据技术:MapReduce(2)
Shuffle 是 MapReduce 处理流程中的一个关键阶段,位于 Map 函数之后和 Reduce 函数之前。在这个阶段,Map 任务的输出数据会被排序、分区,并传输给 Reduce 任务进行进一步处理。break;break;break;需求过滤输入的日志文件,将包含“lzl”的记录输出到e:/lzl.log,不含“lzl”的记录输出到。输入数据期望输出数据e:/lzl.log。原创 2024-08-14 14:26:42 · 1470 阅读 · 0 评论 -
Hadoop 中的大数据技术:MapReduce(1)
MapReduce 是一个用于分布式计算的编程框架,它是 Hadoop 核心组件之一,主要用于开发分布式数据分析应用。MapReduce 的主要功能是将用户编写的业务逻辑代码与默认组件相结合,形成一个完整的分布式计算程序,并能够在 Hadoop 集群上并发执行。定义:序列化是指将内存中的对象转换为字节序列的过程,以便于存储或在网络中传输。反序列化:将接收到的字节序列还原为内存中的对象。实现Writable接口。提供无参构造函数:用于反序列化时的反射调用。重写序列化方法write()方法用于序列化。原创 2024-08-13 23:29:13 · 1127 阅读 · 0 评论 -
Hadoop 中的大数据技术:HDFS(2)
Fsimage不记录块位置信息的设计增强了NameNode的灵活性,使得它能够在不影响整体系统的情况下调整块的位置和副本数量。原创 2024-08-12 17:09:40 · 1227 阅读 · 0 评论 -
Hadoop 中的大数据技术:HDFS(1)
1.1 HDFS 的产出背景与定义HDFS 的产生缘由随着数据规模的持续增大,单个操作系统无法容纳全部数据,于是数据被分配至更多由操作系统管理的磁盘中。然而,这种方式在管理和维护上存在不便,急切需要一套系统对多台机器上的文件予以管理,分布式文件管理系统便应运而生。HDFS 只是此类系统中的一种。HDFS 的定义阐释HDFS(Hadoop Distributed File System),其作为一种文件系统,主要用于文件的存储,并借助目录树来对文件进行定位;原创 2024-08-12 13:08:20 · 1275 阅读 · 0 评论 -
大数据技术之 Hadoop(入门详解)
各个模块分开启动/停止(配置 ssh 是前提)常用整体启动/停止 HDFS整体启动/停止 YARN各个服务组件逐一启动/停止分别启动/停止 HDFS 组件启动/停止 YARN。原创 2024-08-11 19:59:57 · 1210 阅读 · 0 评论