![](https://img-blog.csdnimg.cn/b29b7efb103f4fe2adacbc72e991408c.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
文章平均质量分 79
图文并茂的方式来跟踪、解析、理解hadoop技术及相关源代码
笑起来贼好看
歲月匆忙,偷得浮生半日閑。
展开
-
【Devops运维】Docker搭建jenkins自动化编译hadoop/spark/flink/hive/kyuubi/trino大数据组件
DevOps 一词的来自于 Development 和 Operations 的组合,突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件构建、测试、发布更加快捷、频繁和可靠。本文是 通过 docker 制作 jenkins 镜像,部署 jenkins 容器,配置 spark / hadoop 编译任务原创 2023-05-22 13:27:39 · 754 阅读 · 0 评论 -
【大数据Hadoop】HDFS3.3.1-Datanode-DataStorage的实现原理
Datanode 最重要的功能就是管理磁盘上存储的 HDFS 数据块。Datanode 将这个管理功能切分为两个部分:①管理与组织磁盘存储目录(由 dfs.data.dir 指定),如 current、 previous、 detach、 tmp 等,这个功能由 DataStorage 类实现;② 管理与组织数据块及其元数据文件,这个功能主要由 FsDatasetlmpl 相关类实现。本节介绍 DataStorage 类的实现。原创 2023-05-03 09:41:16 · 803 阅读 · 1 评论 -
【大数据Hadoop】HDFS3.3.1-DFSAdmin-reconfig能修改的配置项
Hadoop 在运行态可以动态的通过的方式去刷新配置文件或者中的配置到 Namenode 或者 Datanode 的 jvm 中,让其生效。那么哪些配置能让其生效呢。原创 2023-04-24 09:33:39 · 656 阅读 · 0 评论 -
【大数据Hadoop】HDFS3.3.1-Namenode-缓存管理
Hadoop 2.3.0 版本新增了集中式缓存管理功能,允许用户将一些文件和目录保存到HDFS缓存中。HDFS集中式缓存是由分布在Datanode上的堆外内存组成的,并且由Namenode 统一管理添加集中式缓存功能的 HDFS 集群具有以下显著的优势。阻止了频繁使用的数据从内存中清除。因为集中式缓存是由 Namenode 统一管理的,所以 HDFS 客户端可以根据数据块的缓存情况调度任务,从而提高了数据块的读性能。原创 2023-04-11 17:38:47 · 665 阅读 · 0 评论 -
【大数据Hadoop】HDFS3.3.1-Namenode-租约管理
我们知道 HDFS 文件是 write-once-read-many,并且不支持客户端的并行写操作,那么这里就需要一种机制保证对 HDFS 文件的互斥操作。HDFS 提供了租约(Lease)机制来实现这个功能,租约是 HDFS 中一个很重要的概念,是 Namenode 给予租约持有者(LeaseHolder,一般是客户端)在规定时间内拥有文件权限(写文件)的合同。原创 2023-04-11 11:12:23 · 754 阅读 · 0 评论 -
【大数据Hadoop】HDFS3.3.1-Namenode系列源码阅读
HDFS集群是以Master/Slave模式运行的,主要有两类节点:Namenode和Datanode。其中Namenode是HDFS的主节点。文件系统目录树管理HDFS 的目录和文件在内存中是以一颗树的形式存储的。这个目录树结构是由 Namenode 维护的,Namenode 会修改这个树形结构以对外提供增删改查文件的操作功能。原创 2023-04-11 09:19:22 · 487 阅读 · 0 评论 -
【大数据Hadoop】HDFS-HA模式下ZKFC(DFSZKFailoverController)高可用主备切换机制
当一个NameNode被成功切换为Active状态时,它会在ZK内部创建一个临时的znode,在znode中将会保留当前Active NameNode的一些信息,比如主机名等等。当Active NameNode出现失败或连接超时的情况下,监控程序会将ZK上对应的临时znode进行删除,znode的删除事件会主动触发到下一次的Active NamNode的选择。根据检测出的不同状态之后,会调用enterState方法,在这个方法内部会触发相应状态的回调事件。这2个方法会在HDFS HA自动切换最后被调用。原创 2023-03-26 13:14:24 · 2546 阅读 · 0 评论 -
【大数据Hadoop】HDFS-HA模式下Checkpointer机制代码分析
Namenode一方面为了提供客户端的响应速度,另外一方面为了提高集群的可靠稳定性(断电后数据不丢失),所以在内存中存储全量的文件系统元数据,定期的将元数据信息持久化到磁盘中(fsimage_0000000000000102359),对于此持久化时间点后产生的元数据操作(创建,修改,删除等),都会记录到edits_xxx-xxx文件中,对于正在执行元数据操作过程中的操作,会记录在一个edits_inprogress_xxxx文件中。此过程就是将 fsImage 上传给 active namenode节点。原创 2023-03-26 09:56:45 · 830 阅读 · 1 评论 -
【大数据Hadoop】HDFS-Namenode-bootstrapStandby同步元数据的源码步骤分析
为了使Standby节点的状态与Active节点保持同步,两个节点都与一组称为“ JournalNodes”(JNs)的独立守护进程进行通信。当主动节点执行任何名称空间修改时,它会持久地将修改记录记录到大多数JNs上。Standby 节点能够从 JNs 中读取edits,并不断观察它们对edits的更改。当 Standby Node 看到edits时,它将它们应用到自己的名称空间。原创 2023-03-24 16:09:47 · 1110 阅读 · 0 评论 -
【大数据Hadoop】HDFS-Namenode-format格式化的源码步骤分析
本文记录了hdfs在ha模式下的hdfs -format的操作流程,及源代码解读。了解namenode的初始化过程。原创 2023-03-21 00:25:31 · 2540 阅读 · 0 评论 -
【大数据】Hadoop-Yarn常用运维命令使用
使用yarn top命令查看,和linux的top类似。只有在任务跑的途中才能看到container的状态。原创 2023-03-14 07:30:00 · 826 阅读 · 0 评论 -
【大数据】HADOOP-YARN-ContainerExecutor容器启动器详解
这个执行器仅在GNU/Linux上支持。为了最大化安全,executor安装限制本地文件和被容器使用目录(如共享对象,jars,中间文件,日志文件等等)的权限和用户/组所属权。这里的组hadoop是NodeManager Unix用户(yarn)所属的组,并且组内没有非hadoop相关的用户,以防安全风险。在NodeManager中,会为每个Application,以及每个Container建立一个对应的目录,在每个Container的目录下,就放置了一些运行这个Container必需的信息。原创 2023-03-13 07:30:00 · 1601 阅读 · 0 评论 -
【大数据】HDFS客户端命令行(hdfs dfs)详细使用说明
Hadoop dfs 客户端命令ls/count/du/mv等使用详解原创 2023-03-11 12:39:44 · 3006 阅读 · 0 评论 -
【大数据】HDFS管理员 HaAdmin 集群高可用命令详细使用说明
HaAdmin高可用集群管理工具使用,切换NameNode的主备状态。原创 2023-03-11 10:15:30 · 1517 阅读 · 0 评论 -
【大数据】HDFS管理员命令行(Administration Commands)详细使用说明
HDFS命令行使用说明文档,比如常见的 bin/hdfs dfs -ls /; bin/hdfs dfs -rm ; bin/hdfs fsck等等命令详解本文主要是hdfs 管理员的相关命令详解原创 2023-03-08 07:51:02 · 503 阅读 · 0 评论 -
【大数据】HDFS调试命令行(Debug Commands)详细使用说明
HDFS命令行使用说明文档,比如常见的 bin/hdfs dfs -ls /; bin/hdfs dfs -rm ; bin/hdfs fsck等等命令详解本章节主要讲述 bin/hdfs debug原创 2023-03-08 07:49:13 · 471 阅读 · 0 评论 -
【大数据】HDFS用户客户端命令行(User Client Commands)详细使用说明
HDFS命令行使用说明文档,比如常见的 bin/hdfs dfs -ls /; bin/hdfs dfs -rm ; bin/hdfs fsck等等命令详解原创 2023-03-08 07:47:36 · 1607 阅读 · 0 评论 -
【Hadoop源码】一篇文章带你熟悉解读 Namenode启动加载FsImage的过程
NameNode是HDFS中负责元数据管理的组件,它保存着整个文件系统的元数据信息,并且充当着指挥调度DataNode的作用。NameNode不仅在内存中保存着文件系统元数据信息,还会定期将文件系统的元数据(文件目录树、文件/ 目录元信息) 持久化到本地 fsImage 文件中, 以防止Namenode掉电或者进程异常崩溃。如果Namenode实时地将内存中的元数据同步到fsimage文件中, 将会非常消耗资源且造成Namenode运行缓慢。 所以Namenode会先将元数据的修改操作保存在editlog原创 2023-03-07 14:26:23 · 943 阅读 · 0 评论 -
【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档
Grafana 是一款开源的数据可视化工具,使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。原创 2023-03-04 12:48:28 · 3895 阅读 · 3 评论 -
【大数据】记一次hadoop集群missing block问题排查和数据恢复
记一次 Hadoop 集群 missing block 问题解决及排查思路,集群环境总共有2个NN节点,3个JN节点,40个DN节点,基于hadoop-3.3.1的版本。集群采用的双副本,未使用ec纠删码。因为出现了missing block块高于namenode安全模式启动的阈值,导致namenode起来一直处于安全模式。原创 2023-02-24 14:55:52 · 2491 阅读 · 0 评论 -
【大数据】Alluxio-2.6.0安装
Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。原创 2023-01-22 08:48:56 · 820 阅读 · 0 评论 -
Mac m1 arm系统电脑编译安装 protobuf 2.5
mac m1 arm架构 电脑安装部署编译 protobuf 2.5编译hadoop 报错 protobuf。原创 2023-01-19 20:28:37 · 534 阅读 · 0 评论 -
【大数据】HADOOP-YARN容量调度器Spark作业实战
Hadoop-YARN 容量调度器配置实践,真实场景案例原创 2023-02-18 11:43:48 · 963 阅读 · 0 评论 -
【大数据】HADOOP-Yarn集群界面UI指标项详解(建议收藏哦)
HADOOP-Yarn的UI界面指标项及参数配置详解。方便进行资源配置,任务监控,资源告警,日常运维原创 2023-02-18 10:54:56 · 5372 阅读 · 1 评论 -
【大数据】HADOOP-YARN容量调度器配置详解
HADOOP-YARN Capacity-scheduler 层次化的队列设计,这种层次化的队列设计保证了子队列可以使用父队列设置的全部资源。这样通过层次化的管理,更容易合理分配和限制资源的使用。容量保证,队列上都会设置一个资源的占比,这样可以保证每个队列都不会占用整个集群的资源。安全,每个队列有严格的访问控制。用户只能向自己的队列里面提交任务,而且不能修改或者访问其他队列的任务。弹性分配,空闲的资源可以被分配给任何队列。当多个队列出现争用的时候,则会按照比例进行平衡。原创 2023-02-16 18:31:41 · 2434 阅读 · 0 评论 -
【大数据】YARN节点标签Node Label特性
YARN 的 Node-label 特性能够将不同的机器类型进行分组调度,也可以根据不同的资源要求进行分区调度。运维人员可以根据节点的特性将其分为不同的分区来满足业务多维度的使用需求。YARN的Node-label功能将很好的试用于异构集群中,可以更好地管理和调度混合类型的应用程序。原创 2023-02-14 18:00:43 · 1266 阅读 · 1 评论 -
【大数据】Hadoop-Kms 安装及相关详细配置,看完你就会了
Hadoop KMS是基于Hadoop的KeyProvider API的加密密钥管理服务器,它提供了使用REST API通过HTTP进行通信的客户端和服务器组件。客户端是一个KeyProvider实现,使用KMS HTTP REST API与KMS交互。KMS及其客户端具有内置的安全性,它们支持HTTP SPNEGO Kerberos身份验证和HTTPS安全传输。KMS是一个Java Jetty web应用程序。KMS与Hadoop结合,可以实现HDFS客户端透明的数据加密传输以及细粒度的权限控制。原创 2023-02-11 20:40:42 · 1148 阅读 · 0 评论 -
【大数据】Hadoop-HA-Federation-3.3.1集群高可用联邦安装部署文档(建议收藏哦)
单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode 进程使用的内存可能会达到上百 G,NameNode 成为了性能的瓶颈。因而提出了 namenode 水平扩展方案-- Federation。Federation 中文意思为联邦,联盟,是 NameNode 的 Federation,也就是会有多个NameNode。原创 2023-02-11 20:21:48 · 1392 阅读 · 0 评论 -
【大数据Hadoop】Hadoop 3.x 新特性总览
从功能上来说,Hadoop3比Hadoop2有些功能得到了增强,具体增加了哪些,后面再讲。JDK:在Hadoop2时,可以使用JDK7,但是在Hadoop3中,最低版本要求是JDK8,所以低于JDK8的版本需要对JDK进行升级,方可安装使用Hadoop3EC技术:Erasure Encoding 简称EC,是Hadoop3给HDFS拓展的一种新特性,用来解决存储空间文件。EC技术既可以防止数据丢失,又能解决HDFS存储空间翻倍的问题。原创 2023-02-03 09:31:17 · 2508 阅读 · 2 评论 -
【大数据Hadoop】Hadoop源代码调试(持续更新...)
hadoop 源代码 各个组件的调试,分析源代码,跟踪源代码,解析源代码,理解源代码,熟读源代码原创 2023-01-29 11:08:30 · 245 阅读 · 0 评论 -
【大数据Hadoop】macbookpro m1/m2 arm 编译hadoop-3.3.1
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 在macbookpro m1/m2 arm架构上编译protobuf 失败的解决办法,hadoop-3.3.1版本的编译,部署原创 2023-01-29 11:05:10 · 971 阅读 · 0 评论 -
【Hadoop】Hadoop 3.3.1 源码编译 native库支持ec纠删码和压缩算法,亲自整理有效
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high througCentos 8.4 编译环境软件安装目录。原创 2023-01-29 11:00:52 · 448 阅读 · 0 评论 -
【大数据HIVE】Hive 编译遇到Protobuf 2.5 不支持的问题
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行,Hive编译报错,protobuf在mac的arm上报错原创 2023-01-28 10:32:21 · 743 阅读 · 0 评论 -
【Ambari】ambari中添加新服务
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。原创 2023-01-28 10:28:27 · 846 阅读 · 0 评论 -
【Ambari】ambari组件安装
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。原创 2023-01-28 10:20:47 · 1032 阅读 · 0 评论 -
【大数据SQL测试】tpch压测
TPCH性能压测,功能压测,sql基准测试,sparksql性能测试,数据生成工具,如果你之前生成过数据表,可以执行make clean先清除一下再执行以下命令。执行dbgen,生成数据表,大小为2G。根据自己需要设定参数。原创 2023-01-27 20:02:01 · 564 阅读 · 0 评论