hadoop
文章平均质量分 89
hadoop相关的内容总结
陈猿解码
这个作者很懒,什么都没留下…
展开
-
一次flink任务重试失败的问题分析
【背景】在研究flink任务失败重试的过程中,遇到了一个问题,具体表现为:在任务重试时,出现与NN连接失败,触发新的一次重试,然后重复此流程,直到达到重试上限后,任务失败退出。本文就总结下整个问题的分析过程,以及涉及到的相关知识点。【问题分析过程】首先查看了任务的日志,发现有如下关键信息:INFO org.apache.hadoop.io.retry.RetryInvocationHandler ...原创 2022-11-16 00:14:54 · 1623 阅读 · 0 评论 -
hdfs的一个运维小技巧
【前言】对于hdfs而言,磁盘故障的处理或者节点的扩容是比较常见的运维操作。对于这种场景的运维操作是相对比较简单的,但关键在于如何快速的使数据在各个dn之间平衡,或者快速的使block数据达到指定的副本数,本文就来聊聊这个小技巧。【块平衡】在hdfs的实际使用过程中,难免会遇到DN的异常停止服务的时候。在这种情况下,当NN检测到DN处于异常后,为保证数据满足指定的副本数,因此会逐步为该DN上的所有...原创 2022-09-27 00:21:57 · 950 阅读 · 0 评论 -
yarn任务信息的几种获取方式
在问题定位、日常巡检、特定开发任务中,都会涉及查看yarn任务的相关信息,包括applicaiton的ID、类型、名称、起始时间、app所包含的container、以及每个container的日志文件内容等信息。本文就来聊聊查询查看这些信息的几种方式。【通过RM的WEB查看】这个是最简单的方式,直接在浏览器中打开RM的web网页就可以查看所有的App信息以及对应的日志了。...原创 2022-06-02 07:08:02 · 6717 阅读 · 0 评论 -
2.X版本又一个极端情况下的偶现严重问题
【概述】前段时间,在异常测试的环境里,发现yarn任务无法提交,经过逐步排查,最后发现在一个极端的场景下,存在JN不会重新向kerberos进行认证,导致整体均无法提供服务的情况。本文就来详细聊聊问题出现时的情况以及分析复现过程。【问题分析】某天下午,突然被拉到一个群里,上层业务的开发兄弟@我,说所有的yarn任务都无法提交了,麻烦看下是怎么回事?知晓问题后,先看了下RM的情况,发现两个RM都是s...原创 2022-09-21 00:01:54 · 539 阅读 · 1 评论 -
一文讲透hdfs的delegation token
【背景】前一段时间总结了hadoop中的token认证、yarn任务运行中的token,其中也都提到了delegation token。而最近也遇到了一个问题,问题现象是:flink任务运行超过七天后,由于宿主机异常导致任务失败,继而触发任务的重试,但接连重试几次都是失败的,并且任务的日志也没有聚合,导致无法分析问题失败的原因。最后发现是和delegation token...原创 2022-07-25 07:01:57 · 1829 阅读 · 5 评论 -
2.X版本的一个通病问题
【概述】对于配置了HA模式的RM或者NN,客户端如果向standby的节点发送请求,会因为不可连接或standby拒绝提供服务导致请求失败,转而向Active的节点发送请求,这个转换是hadoop客户端内部自动完成的,无须上层业务感知(本质上是向其中一个节点发送请求,如果失败则继续向另外一个节点发送请求)。上周排查了一个相关的问题,在集群正常的情况下,向两个节点发送请求都...原创 2022-06-22 23:02:20 · 1288 阅读 · 0 评论 -
hadoop中的token认证
周更快变成月更了,但还是要坚持,本文来聊聊hadoop中的token,涉及到的点如下图所示。【Hadoop为什么需要Token】hadoop最初的实现中并没有认证机制,这意味着存储在hadoop中的数据很容易泄露。后来,基于kerberos认证的安全特性被加入到hadoop中,但是基于kerberos的认证在使用过程中,会存在以下问题:过程比较复杂,认证过程中还需要涉及到...原创 2022-05-12 00:27:16 · 1405 阅读 · 4 评论 -
一文搞懂hadoop的metrics
【概述】一个成熟的项目通常都会自带提供metric,反映运行时内部的各个信息,以方便进行监控运维。hadoop也不例外,通过jmx可以查看内部各个metrics信息,本文就来聊聊hdfs的...原创 2022-01-29 22:04:22 · 2031 阅读 · 0 评论 -
一文搞懂hadoop中的用户
又有一段时间没有更新了,最近忙着搬砖的同时,也填了一些坑,其中不少坑是有关联的,甚至其中有一个配置项接连引发了两三个问题,后续打算逐个总结输出,这里先进行一些铺垫~【hadoop的用户概述】在hadoop中,客户端不管是向hdfs请求上传下载文件,还是向yarn提交任务、下载查看任务的日志,都会指定一个用户来进行操作。在开启了ACL鉴权机制后,hdfs的namenode,...原创 2022-04-23 00:13:10 · 4631 阅读 · 1 评论 -
Hadoop——健康检测
【前言】通常后端服务都会设计自身的健康检测逻辑。所谓的健康检测,就是定期检测节点运行所必须的环境是否满足需求,如果不满足则拒绝提供服务。HDFS和YARN中涉及的各个服务也不例外,基本上...原创 2020-05-10 22:05:24 · 2106 阅读 · 0 评论 -
Hadoop中的RPC
【概述】在hadoop中,客户端与namenode、datanode与namenode、dfsadmin与namenode、客户端与resourcemanager等模块之间的交互都采用rp...原创 2021-02-22 23:30:16 · 2225 阅读 · 2 评论