【==== HDFS&YARN ====】
文章平均质量分 92
Hadoop分布式文件存储学习,资源
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
-
【Hadoop】DataNode 数据盘进行磁盘DiskBalancer
DiskBalancer是一个命令行工具,可在DataNode的所有磁盘上均匀分发数据。 此工具对给定的DataNode进行操作,并将块从一个磁盘移动到当前DataNode的另一个磁盘。DiskBalancer通过创建计划并继续在DataNode上执行该计划。 计划是一组陈述,描述了两个磁盘之间应该移动的数据。 计划由多个移动步骤组成。 移动步骤具有源磁盘,目标磁盘和移动的字节数。 可以针对运行数据节点执行计划。DiskBalancer是一个相对独立的线程,它可以对数据的复制进行限流。原创 2024-05-21 11:24:53 · 3355 阅读 · 107 评论 -
【Hadoop】MapReduce详解
MapReduce思想在生活中处处可见。MapReduce 的思想核心是“分而治之”,适用于大规模数据处理场景。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。原创 2023-11-13 08:45:08 · 6559 阅读 · 113 评论 -
【Hadoop】YARN容量调度器详解
Hadoop YARN的核心组件是ResourceManager,负责集群资源管理与调度,而ResourceManager组件的核心是调度器,负责统筹集群资源,满足应用的资源需求。调度器不仅需要优化整个集群的资源布局,避免热点等问题对应用的影响,最大程度利用集群资源;还要能协调好大量应用在集群的运行,基于多租户(队列)公平性、应用优先级等策略解决好资源竞争等问题;也要能满足个别应用在节点依赖、放置策略等方面的特殊需求。原创 2023-11-07 08:59:38 · 4258 阅读 · 103 评论 -
【Hadoop】Apache Hadoop YARN
YARN是一个纯粹的调度器,不负责应用程序的监控和状态追踪,不保证应用程序的失败或者硬件失败的情况对 TASK 重启,而是基于应用程序的资源需求执行其调度功能,使用了叫做资源 container 的概念,其中包括多种资源,比如,cpu,内存,磁盘,网络等。特定应用的执行由ApplicationMaster控制,ApplicationMaster负责将一个应用分割成多个任务,并和资源管理器协调执行所需的资源,资源一旦分配好,ApplicationMaster就和节点管理器一起安排、执行、监控独立的应用任务。原创 2023-11-05 12:47:18 · 3404 阅读 · 123 评论 -
【Hadoop】HDFS API 操作大全
为了提供对不同数据访问的一致接口,Hadoop借鉴了Linux虚拟文件系统的概念,为此Hadopo提供了一个抽象的文件系统模型FileSystem,HDFS 是其中的一个实现。FileSystem是Hadoop中所有文件系统的抽象父类,它定义了文件系统所具有的基本特征和基本操作。原创 2023-09-18 18:24:13 · 3428 阅读 · 49 评论 -
【Hadoop】DataNode 详解
Datanode是HDFS文件系统的工作节点,它们根据客户端或者是namenode的调度进行存储和检索数据,并且定期向namenode发送它们所存储的块(block)的列表。原创 2023-08-28 13:40:13 · 5489 阅读 · 50 评论 -
【Hadoop】HDFS读写流程和客户端命令使用
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。原创 2023-08-26 16:33:14 · 4132 阅读 · 25 评论 -
【Hadoop】Hadoop入门概念简介
Hadoop设计了一个在分布式集群上实现资源管理与功能水平分层的架构,该分层解耦架构让大家可以在Hadoop上不断地叠加组件,并且每个组件可以独立升级,同类组件可以相互竞争,不断提升性能。作为Hadoop生态系统的核心,HDFS、YARN、MapReduce形成了一个灵活的基座,并以此为基础扩展出了非常多的Hadoop兼容开源项目和软件,常见的大数据组件包括。对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。实例中的单独机器上运行的软件。原创 2023-08-26 15:08:41 · 1814 阅读 · 14 评论 -
【Hibench 】完成 HDP-Spark 性能测试
HiBench是Intel推出的一个大数据基准测试工具,可以帮助评估不同的大数据框架在速度、吞吐量和系统资源利用方面评估不同的大数据框架的性能表现。它包含一组Hadoop、Spark和流式WorkLoads,包括Sort、WordCount、TeraSort、Repartition、Sleep、SQL、PageRank、Nutch索引、Bayes、Kmeans、NWeight和增强型DFSIO等。在进行Hibench的时候可以指定Spark和Scala的版本,通过如下参数指定。原创 2023-08-19 13:16:33 · 1828 阅读 · 12 评论 -
【Hadoop】HDFS FileSystem 导致的内存泄露
"org.apache.hadoop.fs.FileSystem$Cache"”的一个实例文件系统被"sun.misc.Launcher$AppClassLoader @ 0xc04e9290"加载。问题的源头在于 org.apache.hadoop.fs.FileSystem 这个类,程序运行了5天, conf 类就产生了几千个实例。配置”,由“sun.misc”加载。.hrpof文件,这里是二进制的格式,你不能直接打开看的,其把这一时刻JVM堆内存里所有对象的快照放到文件里去了,供你后续去分析。原创 2023-04-22 15:50:10 · 2280 阅读 · 3 评论 -
【Hadoop】DataNode节点下线速度优化
具体上面参数的值设定的多少,取决于集群的规模和集群的配置,不能同一而论。几十T, 甚至上百T, 上百万block的节点掉线,会出现大量的RPC风暴,在我们存在大量小文件的集群对namenode是很大的挑战,不仅影响生产性能,也会存在很大的隐患,尤其是对于带宽有限制瓶颈的集群。然后namenode根据该节点的ip,查出该节点所有的blockid,以及对应副本所在机器,通过心跳机制安排数据复制,这时候数据的复制,数据源不在是掉线节点,而是多个副本之一所在的节点,同样这时候副本复制也遵循机架感知,副本搁置策略。原创 2022-12-31 13:40:22 · 2498 阅读 · 3 评论 -
【Hadoop】mapred-site.xml 配置详解
map task在执行到5%的时候就开始为reduce进行申请资源,开始执行reduce操作,reduce可以开始进行拷贝map结果数据和做reduce shuffle操作 -->-- 默认情况下,reduce是全部从磁盘开始读处理数据,如果这个参数大于0,那么就会有一定量的数据被缓存在内存并输送给reduce -->-- JVM 年轻代和老年代比例 新生代占1,老年代占 8,年轻代占整个堆内存的 1/9 -->-- MR AppMaster的Java opts ,默认是-Xmx1024m -->原创 2021-10-20 22:27:42 · 10494 阅读 · 6 评论 -
【Haoop】Yarn(RM-AM-NM 三大组件的通信,任务提交搭到 Yarn 的过程,文件切片)
NodeManager是每个节点上的资源和任务管理器,它是管理这台机器的代理,负责该节点程序的运行,以及该节点资源的管理和监控。(2) AsM一般会返回一个新生成的全局ID,除此之外,传递的信息还有集群的资源状况,这样Client就可以在需要时请求资源来运行任务的第一个 container 即 AM。在上面(5)与(6)之间,AM在收到RM返回的container列表后,会与每个container所在机器的NM通信,来启动这个container,下面就说说这个过程。这个过程是AM向RM请求资源。原创 2020-04-11 16:56:41 · 6519 阅读 · 1 评论 -
【Hadoop】DataNode Decommision
Hadoop集群中管理员经常需要向集群中添加节点,或从集群中移除节点,例如:为了扩大存储容量,需要上线一个境界点,相反的,如果想要缩小集群规模,则需要解除节点,如果某些节点出现反常,例如故障率过高或者性能过于低下,则需要下线节点,在上线新节点(而且保证不关闭集群和不损害集群中某一天机器的数据节点数据块丢失情况下),我们需要采用以下方式来解决这些问题。若DN 的复制任务大于改值时,不会将其选为复制的源节点。每次复制的块的个数为 dn的个数* 该参数。进行复制任务分配时,单个DN 任务的最大值。原创 2022-02-27 18:48:08 · 1452 阅读 · 2 评论 -
【Hadoop】yarn-site.xml配置文件详解
<-- 允许跨域访问的来源,如果有多个,用逗号(,)分隔 --> <property> <name>hadoop.http.cross-origin.allowed-origins</name> <value>*</value> </property><-- 与 DNS 侦听器应绑定到的网络接口关联的地址。 -->...原创 2021-10-16 21:32:58 · 16141 阅读 · 0 评论 -
【Hadoop】core-site.xml配置文件详解
-- 一个逗号分隔的类名列表,他们必须继承于org.apache.hadoop.http.FilterInitializer,相应的过滤器被初始化后,将应用于所有的JSP和Servlet网页 -->但是这对小数据包是不利的。原创 2021-10-16 20:01:26 · 16144 阅读 · 0 评论 -
【Hadoop】hdfs-site.xml配置文件参数说明
-- 当全部DN被标记为脏DN的比率高于此阀值,停止不写数据到脏DN的策略,以免造成热点问题(有效的,可写的DN太少,压力太大), dfs.namenode.avoid.write.stale.datanode -->原创 2021-10-16 19:31:54 · 15887 阅读 · 0 评论 -
【Hadoop】Ambari 配置 yarn日志聚合
日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,每块盘上都会创建相同的applicationid,而且applicationid中都会创建相同的containerid,但是并不是每个container中都会存在日志,这块由container自己的机制选择往哪个container目录中写入日志,其他的container目录则为空。这在一定程度上导致了想查看任务的运行日志比较原创 2021-09-22 17:40:51 · 2041 阅读 · 4 评论 -
【Hadoop】本地文件上传到HDFS
需求:按照配置文件的内容解析要上传文件的路径,HDFS的目标路径,文件名格式匹配,按照不同的文件名上传到不同的HDFS目录,HDFS按照业务分目录存储文件。定义RegexLocalPathFilter类实现FileFilter接口实现文件过滤。将hdfsETL.json配置文件解析出来的JSON数组定义为List。🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!1.3 定义UploadHdfsETLJson类。1.1 hdfsETL.json文件。将JSON数组中的元数据信息定义为类。原创 2021-07-10 16:23:06 · 9878 阅读 · 0 评论 -
【Hadoop】HA简介&CAP理论的关系
1998年,加州大学的计算机科学家 Eric Brewer 提出,分布式系统有三个指标。Consistency:一致性 Availability:可用性 Partition tolerance:分区容忍性Eric Brewer 说,这三个指标不可能同时做到。这个结论就叫做 CAP 定理。原创 2020-02-18 21:50:59 · 1447 阅读 · 0 评论