大数据-hadoop
文章平均质量分 78
可免费问问题,可以一次订阅,终身免费问问题。工作多年遇到的问题,与一些总结,注意事项等,有些是源码级别的讲解,同时整个博客是成体系的,里面有很多连接互相连接,问题都是拆开的,能让大家遇到问题的时候方便的解决问题,或者提供思路。
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
九师兄
可免费问问题,可以一次订阅,终身免费问问题。工作多年遇到的问题,与一些总结,注意事项等,有些是源码级别的讲解,同时整个博客是成体系的,里面有很多连接互相连接,问题都是拆开的,能让大家遇到问题的时候方便的解决问题,或者提供思路。也可以单独找我解决问题。
展开
-
【大数据】稀疏位图存储、RoaringBitmap、布隆过滤器,判断元素是否在集合、精确去重
是一种基于位图的数据结构,可以高效地存储大量的非负整数,并支持多种集合运算,如并集、交集、差集等。它可以高效地判断一个元素是否在集合中,并且可以使用很少的空间来存储集合。本文阐述了 RoaringBitmap的基础原理、数据结构和 Container 源码,也列举了 Go 语言常用的位运算。因为最近在业务场景里使用到了 RoaringBitmap。在大数据的应用场景使用 RoaringBitmap 确实能够达到降本增效的作用。原创 2024-07-25 00:15:00 · 134 阅读 · 0 评论 -
【hadoop】 短路读取, Short-Circuit Local Reads
HDFS中,读操作通常通过DataNode,因此,当一个客户端访问DataNode读一个文件的时候,DataNode从磁盘中读出该文件,然后通过TCK Socket发送到客户端。这在文件系统中是一个特别的路径,这允许客户端和DataNode来通信。因为这个原因,经常使用中/var/run or/var/lib的子目录的路径。因此,HDFS通常使用大量的本地读取,也就是说,读取数据的客户端和要读取的数据在同一节点。因为Hdfs在本地也存储了数据,现在要做的是下面红色的线,不经过namenode直接读取数据。原创 2024-07-12 00:30:00 · 56 阅读 · 0 评论 -
【hadoop】基于已有HDFS集群配置NN HA
可以把以前仅仅是Hdfs的配置的分布式,修改成HA的系统。原创 2024-07-12 00:45:00 · 42 阅读 · 0 评论 -
【hadoop】hadoop 2.x HA 高可用
Hadoop 2.0之前,在HDFS集群中 NameNode 存在单点故障(SPOF)。对于只有一个NameNode 的集群,若NameNode 机器出现故障,则整个集群将无法使用,直到NameNode 重新启动。NameNode 主要在以下两个方面影响HDFS集群NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用。原创 2024-07-12 00:45:00 · 122 阅读 · 0 评论 -
【hadoop】hadoop高可用架构、Federation
hadoop基本架构Namespace(命名空间)由目录、文件以及block组成它支持所有对于命名空间相关系统的操作,如增删改查。Block Storage Service(块存储服务)有两个部分>管理Block(在NameNode中完成)通过控制注册以及阶段性的心跳,来保证DataNode在正确运行。运行block信息报告,维护block的位置信息。支持所有对于block位置信息的操作,如增删改查。管理block之间的更换交替,并且删除被替换的block。原创 2024-07-06 16:31:45 · 31 阅读 · 0 评论 -
【Yarn】yarn logs 日志过大 The total log size is too large The log size limit is 10240M
这个时候不建议打开看,就算是grep也不可以,应该head或者tail最前或者最后的部分,追加到一个文件内打开看。今天要排查一个现场,然后需要下载日志查看,结果发现日志过大,无法下载。然后根据提示发现加了参数也无法拉取。原创 2024-05-30 00:45:00 · 274 阅读 · 0 评论 -
【yarn】Yarn 报错 Application submission is not finished, submitted application still in NEW_SAVING
今天突然发现我一个环境突然无法提交flink任务了,在flink/log目录下的日志一直打印当时查看我们的web日志发现有个日志是一直处于等待杀死的状态而且查看Yarn界面,发现有个任务一直处于NEW_SAVING状态,而且点击进去,点击kill 发现无法杀死(这里原本有的,我重启了就没有了,当时没有截图)而且查看队列信息都没有了,这一块好像重启yarn之前是没有的。而且yarn后台也看不到任务重启yarn后也是无法提交任务,但是报错原因变了后来重启了HDFS,然后再次重启Yarn就好了。原创 2024-05-12 00:45:00 · 126 阅读 · 1 评论 -
【yarn】hadoop yarn 常用命令
列出所有 Application:yarn application -list比较有趣的是在flink程序中,这个 Tracking-URL 是可以直接访问flink web ui的。所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLEDKill掉Application:yarn application -kill 任务ID。原创 2024-02-21 17:21:33 · 568 阅读 · 0 评论 -
【yarn】yarn 命令行查看 资源状态
这个命令句就可以 , 查看集群的资源情况 , 包括正在使用的情况.如何通过shell 命令或脚本查看剩余的 cpu核心数 和内存。本次是因为yarn界面现场不给开放一个任务总是说资源不足。原创 2021-01-11 21:58:18 · 11058 阅读 · 1 评论 -
【Yarn】yarn ResourceManager 状态机
四个状态机RMApp、RMAppAttempt、RMContainer。原创 2023-10-22 15:37:18 · 154 阅读 · 2 评论 -
【Yarn】yarn NodeManager 状态机
INITING:应用初始化。收到第一个容器启动请求,触发INIT_APPLICATION事件,进入此状态。创建日志和工作目录,初始化AppLogAggregator、LogHandler、LocalResourcesTrackerImpl等。供后续容器用,第一个之后的容器创建就不走此状态了。RUNNING:完成初始化后,触发事件。:等待回收容器。NM收到RM发送的清理应用列表,会触发事件,会向容器发送KILL来回收。每个容器运行结束(可能是失败结束)会触发事件。:所有容器回收后,处于此状态。原创 2023-10-21 22:16:03 · 82 阅读 · 0 评论 -
【yarn】yarn 分布式缓存、日志目录
HDFS依赖缓存到节点本地磁盘,以便直接本地读取。NM第一次启动容器任务会从HDFS同步依赖,并缓存到本地。如果NM不是第一次启动该应用,则从本地缓存读依赖文件。原创 2023-09-19 22:37:06 · 221 阅读 · 0 评论 -
【Flink】FLink 是如何与Yarn交互请求Container的
最近在学习yarn,所以想看看flink on yarn 是在哪里请求container的。Hadoop YARN权威指南.pdf 第10章Apache Hadoop YARN应用程序范例。这个讲解的比较清楚。原创 2023-07-11 21:12:30 · 202 阅读 · 1 评论 -
【Flink】flink提交到yarn时 自定义container的提交命令
在【Flink】FLink 是如何与Yarn交互请求Container的文章中,我们知道了Flink是如何启动ApplicationMaster的,以及如何申请Container的,然后在里面我们看到一个配置* 2022/8/11 下午10:19 lcc 九师兄* todo: 【Flink】flink提交到yarn时 自定义container的提交命令然后使用的代码如下。原创 2023-07-03 22:18:33 · 279 阅读 · 1 评论 -
【Yarn】Yarn调度ResourceScheduler框架之CapacityScheduler
我们大致了解了Yarn的带哦度框架,在这个里面我们将学习CapacityScheduler。原创 2023-06-29 20:16:11 · 133 阅读 · 0 评论 -
【Yarn】Yarn ContainerLauncher 启动 Container 工作原理
【Yarn】Yarn MRAppMaster 启动我们先看看这个图// corresponding service to launch allocated containers via NodeManager // 1:57 PM 九师兄 todo: 创建 ContainerLauncher containerLauncher = createContainerLauncher(context);然后创建了ContainerLauncherRouter。原创 2023-06-25 22:00:24 · 178 阅读 · 0 评论 -
【Yarn】Yarn MRAppMaster 启动
【Yarn】Yarn ApplicationMasterLauncher的工作机制我们知道了ApplicationMasterLauncher调用命令启动了MRAppMaster,本章节我们主要看看这个MRAppMaster主要做了什么?管理部分主要由三个服务构成,分别是和,它们共同管理应用程序的Application-Master的生存周期。既是一个服务, 也是一个事件处理器, 它处理类型的事件,该类型事件有两种,分别是请求启动一个的"LAUNCH"事件和请求清理一个的"CLEANUP"事件。原创 2023-06-16 21:06:47 · 108 阅读 · 0 评论 -
【Yarn】Yarn ApplicationMasterService 解读
【Yarn】Yarn MRAppMaster 启动。原创 2023-06-14 08:55:55 · 156 阅读 · 0 评论 -
【Yarn】ContainerAllocator Container申请工作机制
【Yarn】Yarn MRAppMaster 启动我们先看看这个图ContainerAllocator的创建是在方法中。// 1:56 PM 九师兄 todo: 创建 ContainerAllocator containerAllocator = createContainerAllocator(clientService , context);该方法创建了ContainerAllocatorRouter。原创 2023-06-11 16:55:32 · 146 阅读 · 1 评论 -
【Yarn】Yarn ApplicationMasterLauncher的工作机制
【Yarn】Yarn Service端如何处理客户端提交的任务在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务,现在我们要看是ApplicationMasterLauncher的工作机制。ApplicationMasterLauncher 本身是一个 Service, 也是一个 EventHandler, 作用是用来启动ApplicationMaster.原创 2023-06-09 21:19:03 · 184 阅读 · 0 评论 -
【yarn】yarn RMApp状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务,现在我们要看RMApp状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-06-07 20:16:57 · 95 阅读 · 0 评论 -
【yarn】yarn TaskAttempt 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-06-05 21:04:23 · 144 阅读 · 0 评论 -
【yarn】yarn Task 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-06-03 09:31:35 · 199 阅读 · 0 评论 -
【yarn】yarn Job 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。今天6月1日,节日值得发个文章,庆祝一下。可以看到正常执行会有7个状态机的转换。原创 2023-06-01 20:45:10 · 106 阅读 · 0 评论 -
【yarn】yarn LocalizedResource 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-05-31 21:04:46 · 98 阅读 · 0 评论 -
【yarn】yarn Container 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-05-29 22:05:02 · 195 阅读 · 0 评论 -
【yarn】yarn RMContainer 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-05-27 08:49:52 · 174 阅读 · 0 评论 -
【yarn】yarn RMStateStore 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-05-26 20:39:52 · 206 阅读 · 0 评论 -
【yarn】yarn Application 状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看Application状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-05-23 20:18:39 · 290 阅读 · 0 评论 -
【yarn】yarn RMAppAttempt状态机正常执行流程
在上一篇文章中,我们知道服务器接收到客户端提交的任务之后,会启动多个状态机进行联合操作,最终来解决任务提交之后的全流程。多个状态机合作完成任务。现在我们要看RMAppAttempt状态机的执行流程,但是状态机执行流程复杂,这里我们只看正常执行流程。可以看到正常执行会有7个状态机的转换。原创 2023-05-21 21:53:14 · 213 阅读 · 0 评论 -
【Yarn】Yarn Service端如何处理客户端提交的任务
在上一篇文章中【Yarn】Yarn App 启动源码,我们从客户端开始,经过一系列操作后,我们终于从客户端提交任务到了服务器。在本章节我们将处理服务端是如何处理客户端的提交任务请求的。原创 2023-05-19 21:18:11 · 290 阅读 · 0 评论 -
【Yarn】Yarn App 启动源码
【Yarn】Yarn 状态机 运行体系在YARN中,ResourceManager 负责集群中所有资源的统一管理和分配, 它接收来自各个节点(NodeManager) 的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationMaster)。YARN的ResourceManager是集群主节点,内部运行非常重要的三个RPC服务端,分别为Client, ApplicationMaster, NodeManager 提供服务。通过该RPC协议向注册、汇报节点健康状况和。原创 2023-04-25 21:30:59 · 322 阅读 · 0 评论 -
【Yarn】Yarn 是如何提交 MapReducer程序到Yarn集群的
【Yarn】Yarn MapReduce 程序开发本文章是在上一篇文章的基础上进行继续分析的。p=45clinet是如何提交任务到Server端的?整体提交任务的流程如下下面将进行更加细致的分析 九师兄 20220722 日补充,下面先看一个案例。原创 2023-04-17 20:40:20 · 383 阅读 · 0 评论 -
【Yarn】Yarn 状态机 运行体系
【Yarn】Yarn 事件分发器 AsyncDispatcher 运行体系在上一篇文章中,我们学会了,Yarn 事件分发器 AsyncDispatcher 运行体系,在这个章节,我们将要学习Yarn 状态机 运行体系。这次写这个案例我调试了好久的时间,九师兄出品。原创 2023-04-13 21:16:18 · 410 阅读 · 0 评论 -
【Yarn】Yarn 事件分发器 AsyncDispatcher 运行体系
}事件类型事件处理器case READ : System . out . println("LearnEventHandler 接收到事件 READ");break;case LISTEN : System . out . println("LearnEventHandler 接收到事件 LISTEN");break;case WRITE : System . out . println("LearnEventHandler 接收到事件 WRITE");break;原创 2023-04-11 22:14:32 · 420 阅读 · 2 评论 -
【Yarn】YARN 核心设计 yarn 核心 service 是如何运行的
【Yarn】Yarn NodeManager注册和心跳上一节我们讲解了,NodeManager的相关知识,因为里面的service很多,很容易迷乱,在本章节我们主要是把Yarn中的service框架拿出来,看看他们的设计原理。原创 2023-04-08 06:06:32 · 352 阅读 · 0 评论 -
【Yarn】Yarn NodeManager注册和心跳
【Yarn】Yarn StateMechine有限状态机是与通信(注册和心跳)的唯一通道。当启动时,该组件负责向注册,并汇报节点上总的可用资源( 该值在运行过程中不再汇报);之后,该组件周期性与通信,汇报各个Container的状态更新,包括节点上正运行的Container、已完成的Container等信息,同时会为之返回待清理Container列表、待清理应用程序列表、诊断信息、各种Token等信息。原创 2023-04-06 22:13:41 · 495 阅读 · 0 评论 -
【Yarn】Yarn StateMechine有限状态机
【Yarn】yarn源码阅读之AsyncDispatcher。原创 2023-04-04 20:47:12 · 345 阅读 · 0 评论 -
【Yarn】yarn源码阅读之AsyncDispatcher
【yarn】YARN 集群启动和核心工作机制源码剖析AsyncDispatcher在一个单独的线程中分派事件Event。目前只有一个线程可以这样做。每个事件类型类可能有多个通道,可以使用线程池来分派事件。异步:这个异步组件的内部,必然包含一个队列和一个消费线程!AsyncDispatcher异步事件驱动模型的中央事件调度器,所以它的内部,注册了很多的事件处理二元组YARN采用了基于事件驱动的异步通信模型,该模型能够大大增强并发性,从而提高系统整体性能。原创 2023-04-02 08:55:38 · 319 阅读 · 1 评论 -
【Yarn】Yarn源码之NodeManager启动源码
【Yarn】Yarn高可用HA方案讲解了Yarn的高可用相关的源码,在【yarn】YARN 集群启动和核心工作机制源码剖析-ResourceManager解读中我们讲解了ResourceManager的启动。本章节我们主要讲解NodeManager启动源码。在NodeManager中主要的类如下。原创 2023-03-29 21:41:31 · 345 阅读 · 0 评论